📚 Саммари научных статей из arXiv

Найдено 137 результатов по запросу 'cs.CL, cs.CY' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Online Anti-sexist Speech: Identifying Resistance to Gender Bias in Political Discourse

2025-08-19

Авторы:

Aditi Dutta, Susan Banducci

#### Контекст Говорение против сексизма (антисексизм), то есть общественные высказывания, которые выступают против женского насилия и сексизма, играют ключевую роль в формировании демократических дебатов в онлайн-среде. Однако системы автоматического модерации содержимого, основанные на крупных языковых моделях (LLMs), часто сталкиваются с трудностями в различении этого антисексизма от текстов, содержащих сексизм. Это исследование рассматривает пять лидирующих LLMs и их возможность классифицировать твиты в государственном языке Великобритании, которые были высказаны в 2022 году, в контексте высокозначимых политических событий, в которых гендерная биаса присутствовал. Авторы подчеркивают, что многие модели часто неправильно классифицируют антисексизм как агрессивные или злонамеренные высказывания, что может привести к тому, что онлайн-среде негативно относятся к лицам, которые выступают против сексизма. Основной мотивацией для этого исследования является понимание, как модели анализируют подобные тексты и как это может повлиять на возможность людей высказывать свое мнение в интернете. #### Метод Для этого исследования были использованы твиты, высказанные в 2022 году в Великобритании, в контексте высокозначимых политических событий. Авторы проанализировали пять крупных языковых моделей, распределив твиты в категории «антисексизм», «сексизм» и «средний уровень содержания». На основе этих данных авторы выявили, как LLMs классифицируют тексты, содержащие антисексизм, и проанализировали возможность моделей видеть разницу между антисексизмом и сексизмом. Это был проведен структурированный анализ текстов, что позволило выявить наиболее часто встречающиеся ошибки классификации. #### Результаты Экспериментальные результаты показали, что LLMs часто преобразуют антисексизм в злонамеренные высказывания. Это в основном происходит в текстах, где выражение антисексизма и сексизма перекликаются. Такие результаты приводят к ситуации, когда лица, высказывающиеся против сексизма, могут быть недооценены или недооцененные. Лица, которые выступают против сексизма, часто получают отрицательную реакцию в онлайн-среде, что может привести к тому, что они будут недооцениваться и недооцениваться. Ошибки классификации LLMs могут привести к недооценке личностей, выступающих против сексизма, и к понижению уровня уважения к их мнениям. #### Значимость Эти представления имеют важное значение в сфере модерации содержимого в Интернете. Выявление ошибок в классификации текстов,

Annotation:

Anti-sexist speech, i.e., public expressions that challenge or resist gendered abuse and sexism, plays a vital role in shaping democratic debate online. Yet automated content moderation systems, increasingly powered by large language models (LLMs), may struggle to distinguish such resistance from the sexism it opposes. This study examines how five LLMs classify sexist, anti-sexist, and neutral political tweets from the UK, focusing on high-salience trigger events involving female Members of Parl...

ID: 2508.11434v1 cs.CL, cs.CY

arXiv PDF

📄 Speciesism in AI: Evaluating Discrimination Against Animals in Large Language Models

2025-08-19

Авторы:

Monika Jotautaitė, Lucius Caviola, David A. Brewster, Thilo Hagendorff

#### Контекст Large language models (LLMs) являются мощными инструментами, применяемыми во многих областях, от поиска информации до помощи в производстве контента. Однако, несмотря на их пользу, возникают вопросы о нейросетевых моделях, в том числе их этические особенности. Насколько же эти модели способны воспроизводить человеческие базисы и отстаивать дискриминацию? Мы фокусируемся на сфере специесизма — дискриминации на основе членства в определенном виде животного, и исследуем, насколько хорошо LLMs могут распознавать и оценивать такие действия. #### Метод Наше исследование основывается на трех основных моделях: (1) **SpeciesismBench** — бенчмарк, состоящий из 1003 заданий, который оценивает способность моделей распознавать и оценивать специесистские утверждения. (2) **Психологические тесты**, включающие сравнение ответов моделей с ответами человеческих участников. (3) **Генерация текстов**, в которой тестируются модели на способность обосновать или отвергать специесистские логики. #### Результаты Мы обнаружили, что LLMs достаточно точно распознают специесистские утверждения, но редко осуждают их. В тестах на приоритеты, таких как "кем бы вы спасли: человека или несколько животных?", LLMs более часто выбирают человека. В психологических опросах, где сравнивались ответы моделей с ответами людей, модели показали немного меньше эксплицитного специесизма, но при выборе между животным и человеком, чаще отдавали предпочтение людям. Особенно интересны результаты открытой генерирования текстов, где модели часто высказывались в пользу эксплоатации животных в фермах, но избегали такого подхода при рассмотрении нефармальных ситуаций. #### Значимость Наши результаты показывают, что LLMs не только копируют человеческие убеждения, но и могут укреплять их, в том числе негативные взгляды на некоторые виды животных. Это может привести к закреплению ценности одних жизней над другими, что негативно сказывается на понимании этики в сфере отношений человека с природой. Мы предлагаем расширить подходы к учету моральных прав нейросетевых моделей в учете этических взглядов, в том числе и в отношении животных. #### Выводы Наши исследования подтверждают, что LLMs могут действовать как как мира исправленных, так и как отражения исправленных ценностей. Нам необходимо разработать более обширные фреймворки для учета этических параметров в жизни, в том числе и в отношении животных. Будущие исследования должны фокусироваться на развитии методов, которые позволят LLMs не только распознавать, но и отвергать стереотипы, в том числе с

Annotation:

As large language models (LLMs) become more widely deployed, it is crucial to examine their ethical tendencies. Building on research on fairness and discrimination in AI, we investigate whether LLMs exhibit speciesist bias -- discrimination based on species membership -- and how they value non-human animals. We systematically examine this issue across three paradigms: (1) SpeciesismBench, a 1,003-item benchmark assessing recognition and moral evaluation of speciesist statements; (2) established ...

ID: 2508.11534v1 cs.CL, cs.CY

arXiv PDF

📄 Group Fairness Meets the Black Box: Enabling Fair Algorithms on Closed LLMs via Post-Processing

2025-08-19

Авторы:

Ruicheng Xian, Yuxuan Wan, Han Zhao

## Контекст Инструкционно оптимизированные большие языковые модели (LLMs) способны выполнять определенные задачи с помощью простого парадигмы "простая модель - простой ввод", которая позволяет использовать их в качестве скелета для создания моделей предсказаний. Эта гибкость, в сочетании с постоянными улучшениями в силе моделей, делает их универсальными для различных сфер, включая важные приложения, где групповая справедливость -- предотвращение дискриминации между демографическими группами -- является ключевым. Однако, большинство существующих подходов к обеспечению групповой справедливости в моделях на основе LLMs основываются на традиционных методах, таких как моделирование или модификация последних слоёв модели, что не применимо для закрытых моделей управления (closed-weight LLMs), таких как GPT-4 и Gemini, которые не позволяют доступа к внутренним параметрам модели. Мы предлагаем новый подход к обеспечению групповой справедливости в LLMs с помощью опорного вывода (post-processing): LLM используется как функция выделения признаков, а затем применяются специально сконструированные пробы (prompts) для получения информации о признаках, необходимых для обеспечения справедливости, после чего основываются новые методы для обучения моделей справедливости. ## Метод Мы предлагаем фреймворк для обеспечения групповой справедливости в закрытых LLMs, используя пост-обработку (post-processing). Модель LLMs используется как функция выделения признаков, то есть вывод LLM (например, вероятности текстовых токенов) используется для получения данных, которые будут использованы в качестве признаков в функции справедливости. Для этого используются специально построенные пробы (prompts), которые позволяют выделить признаки, необходимые для обеспечения справедливости. Затем эти признаки используются в существующих методах для обучения модели справедливости. Мы также предлагаем новый тип проб, который может быть использован для получения данных для обучения моделей справедливости в закрытых LLMs. ## Результаты Мы проверили наш фреймворк на пяти различных датасетах, включая два табулярных датасета. Мы сравнили наш подход с другими подходами к обеспечению справедливости в LLMs, такими как моделирование и модификация моделей. Наши результаты показали, что наш фреймворк дает значительное улучшение точности моделей и улучшает групповую справедливость в сравнении с другими методами. В частности, у нас вышло лучше, чем модели, обучаемые на слоях модели или напрямую на текстовых данных. ## Значимость Наш подход может быть применен в различных сферах, где групповая справедливость крайне важна, например, в сфере здравоох

Annotation:

Instruction fine-tuned large language models (LLMs) enable a simple zero-shot or few-shot prompting paradigm, also known as in-context learning, for building prediction models. This convenience, combined with continued advances in LLM capability, has the potential to drive their adoption across a broad range of domains, including high-stakes applications where group fairness -- preventing disparate impacts across demographic groups -- is essential. The majority of existing approaches to enforcin...

ID: 2508.11258v1 cs.LG, cs.CL, cs.CY

arXiv PDF

📄 Labels or Input? Rethinking Augmentation in Multimodal Hate Detection

2025-08-19

Авторы:

Sahajpreet Singh, Rongxin Ouyang, Subhayan Mukerjee, Kokil Jaidka

#### Контекст Современное веб-пространство поsылает значительные вызовы для моделей визионно-языковых систем (Vision-Language Models, VLMs) при обнаружении враждебного контента, такого как хейт-спич, где формируется вредное воздействие скрытым образом в контексте юмора или сатиры. Существующие модели часто недостаточно гибки в плане настройки входных данных и структуры задач. Кроме того, их уязвимость к неявному хейт-спичу ограничивает их эффективность в ситуациях, где тонкость взаимодействия текста и изображения ключом к пониманию тонких нюансов. В статье предлагается подход, который направляется на улучшение обнаружения хейт-спича с помощью гибкого проектирования моделей и синтетических данных. #### Метод Методология основывается на двух основных компонентах. Во-первых, структурированные предложения (prompts), которые позволяют контролировать уровень гибкости в обучении и настройке системы. Во-вторых, многоагентная система, сочетающая в себе визуальную и языковую модели (LLM-VLM), для генерации синтетических данных. Эта система генерирует 2479 противоположных к хейт-спичу модификаций мемов, изолируя и переписывая хейт-спические модификации. Это улучшает обнаружение и снижает спуфинг, позволяя модели лучше ориентироваться на различные контексты. #### Результаты Используя данные из различных моделей (включая InternVL2), авторы проводили эксперименты для оценки эффективности своих подходов. Отчет о первом подходе, связанном с оптимизацией предложений, показал улучшение устойчивости модели даже в моделях меньшего размера. Отчет о данных, сгенерированных многоагентной системой, показал уменьшение ненужных корреляций и улучшение генерализируемости классификатора. #### Значимость Подходы, предлагаемые в статье, могут применяться в области мониторинга хейт-спича в социальных сетях, интерактивном анализе контента, а также в поиске ненужных зависимостей в данных. Они выделяются тем, что улучшают робастность моделей, снижая зависимость от их размера, и позволяют более эффективно учитывать контекст в обнаружении хейт-спича. #### Выводы В результате исследования было доказано, что гибкость в структуре задачи и в размере модели, а также целенаправленная генерация синтетических данных, являются ключевыми факторами для улучшения обнаружения хейт-спича. Будущие исследования будут сфокусированы на расширении этого подхода на другие типы враждебного контента и создании более тонких методов для обнаружения неявного негативного контента в реальных сетях.

Annotation:

The modern web is saturated with multimodal content, intensifying the challenge of detecting hateful memes, where harmful intent is often conveyed through subtle interactions between text and image under the guise of humor or satire. While recent advances in Vision-Language Models (VLMs) show promise, these models lack support for fine-grained supervision and remain susceptible to implicit hate speech. In this paper, we present a dual-pronged approach to improve multimodal hate detection. First,...

ID: 2508.11808v1 cs.CV, cs.AI, cs.CL, cs.CY, cs.MM, I.2.7; I.2.10

arXiv PDF

📄 How Persuasive Could LLMs Be? A First Study Combining Linguistic-Rhetorical Analysis and User Experiments

2025-08-15

Авторы:

Daniel Raffini, Agnese Macori, Lorenzo Porcaro, Tiziana Catarci, Marco Angelini

## Контекст Общение с искусственным интеллектом (ИИ), особенно с использованием технологий типа Large Language Models (LLMs), становится все более распространенным во всех сферах жизнедеятельности. Одна из ключевых вопросов, которые возникают в этой области, является потенциальная эффективность таких моделей в создании убедительных аргументированных текстов, которые могут влиять на социальную и политическую сферу. Несмотря на то, что LLMs, такие как ChatGPT, показали впечатляющую способность генерировать логично структурированные тексты, их эффективность в области убеждающей речи и политической деятельности еще не полностью оценена. Эта статья стремится заполнить эту нишу, рассматривая языковые и реторические особенности текстов, создаваемых LLMs, и их эффективность в убеждающем воздействии на читателей, особенно в сфере этичных вопросов. ## Метод Для достижения этой цели был проведен эксперимент, в рамках которого 62 участника прошли тесты перед и после взаимодействия с текстами, сгенерированными ChatGPT. Участники прочитали аргументированные тексты на этично-номинированные темы, такие как роль ИИ в образовании и медицине. Затем была проведена лингвистическая и реторическая анализирующая версии текстов, созданных генеративным ИИ. Основные показатели, рассматриваемые в анализе, включали макроструктуру аргументации, частоту использования формулировок, и стилистическую богатство. Эти параметры были измерены для определения того, насколько эффективно ChatGPT генерирует тексты, которые могут способствовать изменению точки зрения участников. ## Результаты Экспериментальные результаты показали, что тексты, сгенерированные ChatGPT, обладают высокой логичностью и согласованной макроструктурой. Однако они отмечаются низкой стилистической разнообразием и частотой использования формулировок. Лингвистический анализ также отмечал, что ChatGPT в силу своих алгоритмов ограничен в способности генерировать тексты, которые могут значительно изменить мнение читателя по этичным вопросам. Несмотря на то, что участники часто отмечали положительные аспекты, выделенные в текстах, их этические опасения не только не значительно уменьшились, но и, в некоторых случаях, усилились после чтения. ## Значимость Находки этого исследования имеют значительное значение для ряда областей. Во-первых, они могут быть применены для улучшения технологий генерирования текстов, особенно в сферах, где этические вопросы играют ключевую роль. Во-вторых, результаты могут быть полезны для разработки методов

Annotation:

This study examines the rhetorical and linguistic features of argumentative texts generated by ChatGPT on ethically nuanced topics and investigates their persuasive impact on human readers.Through a user study involving 62 participants and pre-post interaction surveys, the paper analyzes how exposure to AI-generated arguments affects opinion change and user perception. A linguistic and rhetorical analysis of the generated texts reveals a consistent argumentative macrostructure, reliance on formu...

ID: 2508.09614v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 A Close Reading Approach to Gender Narrative Biases in AI-Generated Stories

2025-08-15

Авторы:

Daniel Raffini, Agnese Macori, Marco Angelini, Tiziana Catarci

#### Контекст Гендерные биасы в искусственном интеллекте (ИИ) становятся все более актуальными в связи с ростом популярности технологий, которые становятся частью повседневной жизни. Исследователи подчеркивают, что гендерные предрассудки в текстах, генерируемых ИИ, могут повлиять на создание клише и укрепить существующие стереотипы. Это, в свою очередь, может привести к необоснованным предпочтениям в гендерных ролях и жизненных ситуациях. Однако многие исследования стремятся проанализировать эти проблемы с использованием метрик и статистического анализа, обходясь без подробного контекстуального исследования. В данной статье предлагается новый подход, основанный на "ближайшем чтении" (close reading), который позволяет глубже понять и оценить гендерные биасы в текстах, генерируемых с помощью ИИ. #### Метод Для исследования гендерных биасов использовались раскадровки стихотворных произведений, спроектированные на основе пропов Михаила Проппа (Propp's character classifications) и фрейговской структуры (Freytag’s narrative structure). Эти раскадровки были использованы для создания подробных заданий генерации текстов в ИИ-системах, включая ChatGPT, Gemini и Claude. Тексты были рассмотрены с пристальным вниманием к соответствию заданию, распределению пола среди персонажей, их физическим и психологическим описаниям, действиям и развитию сюжета. Затем проводился сравнительный анализ, чтобы выявить степень выраженности гендерных предрассудков и их влияние на развитие сюжета и отношения между персонажами. #### Результаты Исследование показало, что даже в условиях однозначного задания генерации текста системы ИИ продолжают проявлять гендерные предрассудки, особенно неявные. Например, женские персонажи чаще описываются в физическом контексте, в то время как мужские персонажи — в позиции владельца действия. Также выявлено, что гендерные стереотипы могут оказывать влияние на развитие сюжета, в том числе в отношениях между персонажами. Эти результаты иллюстрируют необходимость подхода, основанного на ближайшем чтении, для выявления и анализа неявных гендерных биасов в текстах ИИ. #### Значимость Предложенный подход к изучению гендерных биасов в текстах ИИ имеет широкие применения в области гуманитарных технологий, включая создание текстов, предназначенных для образовательных или развлекательных целей. Этот подход позволяет выявлять не только явные, но и неявные гендерные предрассудки, что может способствовать созданию более нейтральных текстов. Более того, этот подход может стать началом для развити

Annotation:

The paper explores the study of gender-based narrative biases in stories generated by ChatGPT, Gemini, and Claude. The prompt design draws on Propp's character classifications and Freytag's narrative structure. The stories are analyzed through a close reading approach, with particular attention to adherence to the prompt, gender distribution of characters, physical and psychological descriptions, actions, and finally, plot development and character relationships. The results reveal the persisten...

ID: 2508.09651v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 Out of the Box, into the Clinic? Evaluating State-of-the-Art ASR for Clinical Applications for Older Adults

2025-08-14

Авторы:

Bram van Dijk, Tiberon Kuiper, Sirin Aoulad si Ahmed, Armel Levebvre, Jake Johnson, Jan Duin, Simon Mooijaart, Marco Spruit

#### Контекст Говорящие интерфейсы, такие как чатботы, могут стать важной поддержкой для старших поколений в клинических контекстах. Однако надежная технология звукового распознавания (ASR) для относительно мало représénteванных групп, таких как пенсионеры, остается значимой проблемой. Обучение ASR-систем под конкретную аудиторию требует больших объемов данных, что сложно в рамках данной целевой группы. В данном исследовании оцениваются современные мультилингвовые и прикладные модели ASR на голландском языке, используя реальные данные от пользователей Welzijn.AI, чатбота разработанного для старшего поколения. Основная задача — определить, достаточно ли готовых моделей для решения этой задачи или нужно применять дополнительное применение и усовершенствования. #### Метод Для исследования были использованы данные, собранные при взаимодействии с Welzijn.AI. Для оценки ASR-систем применялось звуковые фрагменты, на которых звучали вопросы и ответы пользователей. Оценивались три типа моделей: 1) готовые мультилингвовые модели; 2) модели, прикладной язык голландский старого поколения; 3) модели с архитектурой, обрезанной для ускорения работы. Оценивались качество распознавания (WER — Word Error Rate) и скорость обработки. #### Результаты Результаты показали, что мультилингвовые модели показали лучшие результаты по WER по сравнению с прикладными моделями, учитывая стандартные данные. Обрезанные модели показали схожий WER, но с меньшим временем работы. Однако были замечены случаи высокого WER из-за "халлуцинаций" — неправильных распознанных слов, которые могут сильно затруднить интеракцию. #### Значимость Полученные результаты показывают, что современные мультилингвовые модели ASR могут быть эффективно применены в клинических приложениях без дополнительных адаптаций. Это экономит время на обучении и позволяет широко применять готовые решения. Также, обрезанные модели могут быть полезны в ситуациях, когда требуется быстрая обработка, не жертвуя слишком сильно качеством. Однако, эти модели требуют дополнительного контроля, так как их могут сильно сказывать "халлуцинации". #### Выводы Основное достижение — показана эффективность мультилингвовых моделей ASR в клинических контекстах, даже без дополнительного тренирования. Будущие исследования будут сфокусированы на уменьшении "халлуцинаций" в моделях, чтобы сделать их более надежными для реальных клинических сценариев. Также будет рассмотрено расширение решений для других языков и поддержки региональных акцентов.

Annotation:

Voice-controlled interfaces can support older adults in clinical contexts, with chatbots being a prime example, but reliable Automatic Speech Recognition (ASR) for underrepresented groups remains a bottleneck. This study evaluates state-of-the-art ASR models on language use of older Dutch adults, who interacted with the Welzijn.AI chatbot designed for geriatric contexts. We benchmark generic multilingual ASR models, and models fine-tuned for Dutch spoken by older adults, while also considering p...

ID: 2508.08684v1 cs.CL, cs.CY

arXiv PDF

📄 Exploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judge

2025-08-13

Авторы:

Yunna Cai, Fan Wang, Haowei Wang, Kun Wang, Kailai Yang, Sophia Ananiadou, Moyan Li, Mingming Fan

## Контекст Обеспечение безопасности в интерактивных диалогах широко применяемых технологий, таких как Логические Лингвистические Модели (LLM), является критическим в подобных сферах, как медицинская помощь, психологическая поддержка или юридические консультации. Особенно важной является оценка безопасности в разговорах, связанных с психическим здоровьем, где отсутствие золотого стандарта и этическая чувствительность сделали эту задачу одной из самых актуальных и сложных в области искусственного интеллекта. Существующие методы оценки безопасности часто ограничиваются ссылочным подходом, требующим предоставления стандартизированных ответов или текстов, что не всегда доступно в реальных ситуациях. Необходимо разработать более универсальный, гибкий и интерпретируемый подход к оценке безопасности, который может работать в условиях отсутствия готовых стандартов. ## Метод Мы предлагаем LLM-as-Judge, продвинутый подход, который использует технологию создания контекстов (prompt-based) для оценки безопасности LLM-ответов в сфере психического здоровья. В этой модели активно используются специализированные цепочки рассуждений, основанные на принципах психологических интервенций, для того чтобы оценивать ответы модели. Метод предлагает бинарную оценку (точечную) на нескольких аспектах безопасности, что позволяет получать более подробные и транспартные результаты. Для того чтобы обеспечить теоретическую основу, был разработан PsyCrisis-Bench — бенчмарк, основанный на реальных диалогах по ментальному здоровью на китайском языке, включающий такие рисковые области, как самоубийственная идеология, самоповреждение и экзистенциальный тревога. Наш подход выделяется своей способностью работать без стандартных ссылок и оказывать большую транспарентность в оценке безопасности. ## Результаты Мы проводили 3600 экспериментов с целью проверить эффективность нашего подхода. Результаты показали, что LLM-as-Judge достигает наивысшего уровня согласия с оценками экспертов и выдает более понятные и транспартные мотивированные результаты. Особенно сильно показал себя наш метод в сложных ситуациях, когда отсутствуют стандартные ответы или готовые ссылки. Мы также представили высококачественный датасет на китайском языке, содержащий диалоги, связанные с самоубийством, самоповреждением и экзистенциальными проблемами. Благодаря нашей методике, мы можем предлагать более точные и интерпретируемые результаты в области безопасност

Annotation:

Evaluating the safety alignment of LLM responses in high-risk mental health dialogues is particularly difficult due to missing gold-standard answers and the ethically sensitive nature of these interactions. To address this challenge, we propose PsyCrisis-Bench, a reference-free evaluation benchmark based on real-world Chinese mental health dialogues. It evaluates whether the model responses align with the safety principles defined by experts. Specifically designed for settings without standard r...

ID: 2508.08236v1 cs.CL, cs.CY

arXiv PDF

📄 Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

2025-08-13

Авторы:

Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson

#### Контекст Дипломатия — сложная и информационно-объемная игра, требующая стратегического мышления, взаимодействия и тонкого понимания социальных отношений. Участие в этой игре требует высокого уровня мотивации и компетентности от игроков. Существующие методы учебных и тестовых задач для оценки моделей языкового понимания не позволяют оценить их возможности в такой сложной области. Это приводит к ограниченности в широком применении моделей языкового понимания в задачах, требующих стратегического мышления. Наша мотивация заключается в том, чтобы создать метод, позволяющий оценивать модели языкового понимания на полноценных задачах дипломатии, не требуя дополнительной обучения или предварительной подготовки. #### Метод Мы предлагаем методологию, призванную оценивать модели языкового понимания на полноценной задаче дипломатии без необходимости дополнительной подготовки. Мы используем данные для итеративной оптимизации игрового пространства, чтобы улучшить комплексность и точность игрового процесса. Инновационной частью нашего подхода является использование текстовой игровой системы, которая позволяет моделям языкового понимания работать в реальном времени, упрощая процесс тестирования и анализа. Мы также вводим метод критического анализа состояний игры, который позволяет быстро исследовать и анализировать ключевые моменты в игре. #### Результаты Мы провели эксперименты с различными моделями языкового понимания, включая модели с разным количеством параметров. Мы отобрали модели, которые совершенно не требуют дополнительной настройки и имеют широкий диапазон возможностей. Мы также проводили сравнение основных моделей, определяя, какие модели демонстрируют лучший результат в задаче дипломатии. Оказалось, что модели с большим количеством параметров показывают лучшие результаты. Однако мы также обнаружили, что даже модели с меньшим количеством параметров могут выполнять достаточно хорошую работу. Эти результаты позволяют нам понять, как модели языкового понимания могут оценивать сложные ситуации в игре дипломатии. #### Значимость Наш подход демократизирует оценку моделей языкового понимания, позволяя использовать их в задачах, требующих стратегического мышления. Он упрощает процесс тестирования и позволяет проводить сравнение моделей в разных ситуациях. Этот подход также предоставляет новый взгляд на то, какие способности моделей языкового понимания возникают при их обучении на других задачах. Это может привести к новым возможностям в использовании моделей языкового понимания в сложных задачах, требующих с

Annotation:

We present the first evaluation harness that enables any out-of-the-box, local, Large Language Models (LLMs) to play full-press Diplomacy without fine-tuning or specialized training. Previous work required frontier LLMs, or fine-tuning, due to the high complexity and information density of Diplomacy's game state. Combined with the high variance of matches, these factors made Diplomacy prohibitive for study. In this work, we used data-driven iteration to optimize a textual game state representati...

ID: 2508.07485v1 cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

📄 Conversational DNA: A New Visual Language for Understanding Dialogue Structure in Human and AI

2025-08-13

Авторы:

Baihan Lin

## Контекст Понимание и анализ диалогов — это ключевой аспект во многих областях, включая психологию, образовательные технологии, искусственный интеллект и даже лингвистику. Однако традиционные методы анализа диалогов часто сводятся к статистическим обзорам, которые не полностью отражают глубину и сложность человеческого общения. Это ставит под вопрос эффективность таких подходов при анализе диалогов, где важны такие аспекты, как эмоциональная напряженность, тематическая структура и интерактивная инерция. "Conversational DNA" — это инновационный подход к визуализации диалогов, который предлагает новую систему знаков для интерпретации и понимания структуры диалога. Он предлагает трактовать диалог как живую систему, где каждая часть может быть визуализирована и проанализирована с помощью биологических метафор, таких как цветные градиенты, темные линии и лепестковые структуры. Такой подход позволяет выявлять взаимодействия и шаблоны, которые могут быть пропущены при традиционном анализе. Таким образом, "Conversational DNA" предлагает новую перспективу для понимания и визуализации диалогов, которая может помочь не только в живых общениях, но и в искусственных системах. ## Метод "Conversational DNA" — это визуальная система, основанная на техниках данных и биологических метафор. Она предлагает визуальные модели, которые иллюстрируют структуру и динамику диалога. Цветные градиенты используются для представления эмоциональных траекторий, когда частичные оттенки цвета могут указывать на рывки или эмоциональные штормовые волны. Темные линии используются для представления темы или темных полосок, которые охватывают разные части диалога. Также используются лепестковые структуры, которые помогают отобразить логические отношения между разными топиками и темами. Методология включает в себя несколько этапов: предварительная обработка данных, визуализация диалога с помощью метафорических моделей и экспериментальный анализ результатов. Для использования этой методики, необходимо превратить диалог в графическое представление, где каждый элемент (слово, фраза, топик) представляется в виде "структурного состава", который можно сравнивать и анализировать. Этот подход позволяет понять, как тематическая структура диалога развивается во времени и как разные элементы связаны друг с другом. ## Результаты В экспериментах были использованы данные из терапевтических бесед, а также диалогов, происходивших между людьми и искусственным интеллектом. Визуальные

Annotation:

What if the patterns hidden within dialogue reveal more about communication than the words themselves? We introduce Conversational DNA, a novel visual language that treats any dialogue -- whether between humans, between human and AI, or among groups -- as a living system with interpretable structure that can be visualized, compared, and understood. Unlike traditional conversation analysis that reduces rich interaction to statistical summaries, our approach reveals the temporal architecture of di...

ID: 2508.07520v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

1
2
11
12
13
14

Показано 121 - 130 из 137 записей