📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 The Power of Framing: How News Headlines Guide Search Behavior

2025-08-27

Авторы:

Amrit Poudel, Maria Milkowski, Tim Weninger

## Контекст Поисковые системы являются одной из основных площадок для получения информации в современном мире. Однако не только результаты поиска, но и язык, с которым они представлены, могут существенно повлиять на поведение пользователей. Особенно важным является форматирование заголовков, которое может привести к разным интерпретациям событий. Несмотря на то, что влияние форматирования текста на личные оценки и принятие решений достаточно хорошо изучено, его влияние на поведение пользователей в процессе поиска информации остается менее ясным. Исследование в этой области не только поможет понять, как люди искают информацию, но также подчеркнет важность принятия внимательных мер при формировании новостных заголовков. ## Метод Для изучения этого вопроса была проведена экспериментальная работа. Участники проходили эксперимент в управляемых условиях, в ходе которого они делали запросы и выбирали заголовки, фильтруемые по определенным лингвистическим рамкам. Заголовки были разделены на несколько категорий, включая конфликт, стратегию, эпизод и тематику. Затем участники проводили поиск информации, используя выбранные заголовки, и давали ответы на вопросы, которые помогали измерить их поведение. Это позволило изучить, насколько различные лингвистические рамки влияют на поисковые запросы и дальнейшее поведение пользователей. ## Результаты Исследование показало, что различные лингвистические рамки в заголовках оказывают существенное влияние на поведение пользователей во время поиска. Например, конфликтные и стратегические рамки привели к более разным и неожиданным поисковым запросам, чем эпизодические и тематические. Кроме того, была выявлена небольшая, но существующая, память о форматировании заголовков, которая оставалась в течение некоторого времени, но снижалась со временем. Эти находки подтверждают, что даже короткое воздействие форматирования может существенно изменить характер поиска информации пользователями. ## Значимость Результаты этого исследования имеют значительное значение для разных областей. В первую очередь, они подчеркивают важность учета лингвистического форматирования при разработке новостных материалов и поисковых систем. Это может помочь вовлечь пользователей и сделать поиск более эффективным. Также, этот подход может быть применен в области обучения и социальных сетей, где нужно привлечь внимание и стимулировать конструктивный обмен информацией. Более широко, данные результаты могут способствовать развитию новых методов управления контентом и повышения качества информативности. ## Выводы Результа

Annotation:

Search engines play a central role in how people gather information, but subtle cues like headline framing may influence not only what users believe but also how they search. While framing effects on judgment are well documented, their impact on subsequent search behavior is less understood. We conducted a controlled experiment where participants issued queries and selected from headlines filtered by specific linguistic frames. Headline framing significantly shaped follow-up queries: conflict an...

ID: 2508.17131v1 cs.CL, cs.HC, cs.IR

arXiv PDF

📄 DiscussLLM: Teaching Large Language Models When to Speak

2025-08-27

Авторы:

Deep Anil Patel, Iain Melvin, Christopher Malon, Martin Renqiang Min

## Контекст Large Language Models (LLMs) представляют собой мощные инструменты для понимания и генерирования текста, но значительная часть их потенциала остается неиспользованной. Они предназначены для реактивного взаимодействия, отвечая только на прямые запросы, что приводит к "скрытому пробелу в знаниях" и ограничивает их возможности в качестве проактивных коллаборативных партнеров в разговорах. Этот пробел в знаниях приводит к неэффективному взаимодействию в динамичных дискуссиях. DiscussLLM — это новая архитектура, которая нацелена на решение этой проблемы, обучая модели определять не только что говорить, но и когда стоит вмешаться в разговор. ## Метод DiscussLLM использует скалярную двухэтапную технологию потоковых данных для синтеза набора данных, который включает в себя реалистичные диалоги с пятью типами вмешательств: коррекции фактов, определения понятий, добавления контекста, синтеза новой информации и задания вопросов. Данные подвергаются маркировке с указанием моментов, когда модель должна принять решение о вмешательстве. Два архитектурных подхода рассматриваются: концептуальная модель, в которой встроены все элементы, и декомпозированная модель, в которой классификатор и генератор работают отдельно, чтобы обеспечить более эффективную работу. ## Результаты Исследования показали, что DiscussLLM способен корректно определять моменты вмешательства и генерировать полезные ответы. Набор данных, созданный с помощью этой технологии, позволяет модели определять, когда стоит обязательно вмешаться, и когда наилучшим решением является молчание. Модели, обученные с использованием DiscussLLM, доказали свою эффективность в том, чтобы обеспечивать профилактическую динамику в разговорных ситуациях. ## Значимость DiscussLLM может применяться в различных крупных моделях языка, где необходимо проявлять проактивность и ситуативное мышление. Это может привести к более естественному взаимодействию с пользователем, повышению качества консультаций, точности ответов и уменьшению времени реакции. DiscussLLM может иметь значительное влияние в сферах поддержки клиентов, медицинской информации и образовательной сфере. ## Выводы DiscussLLM — это новая точка отсчета в развитии проактивных моделей для обеспечения естественного взаимодействия. Его можно использовать для развития систем, которые не только отвечают на запросы, но и делают это в том времени, когда это будет наиболее эффективно. Будущие исследования будут сосредоточены на улучшении точности вмешательства и контроле риска ошибок в проактивном моделировании. Эта технология может быть применена для создания более удобных и интеллектуальных систем

Annotation:

Large Language Models (LLMs) have demonstrated remarkable capabilities in understanding and generating human-like text, yet they largely operate as reactive agents, responding only when directly prompted. This passivity creates an "awareness gap," limiting their potential as truly collaborative partners in dynamic human discussions. We introduce $\textit{DiscussLLM}$, a framework designed to bridge this gap by training models to proactively decide not just $\textit{what}$ to say, but critically,...

ID: 2508.18167v1 cs.CL, cs.HC

arXiv PDF

📄 Talking to Robots: A Practical Examination of Speech Foundation Models for HRI Applications

2025-08-27

Авторы:

Theresa Pekarek Rosin, Julia Gachot, Henri-Leon Kordt, Matthias Kerzel, Stefan Wermter

## Контекст В статье рассматриваются вопросы использования систем автоматического распознавания речи (ASR) в контексте взаимодействия человека с роботом (HRI). Авторы подчеркивают, что в реальных условиях работы ASR сталкиваются с недостатками качества аудиопотока, влиянием экологических факторов, разнообразием пользователей и требованиями к реакции на сложные типы речи. Эти аспекты создают специфические вызовы для HRI, где ошибки распознавания могут привести к проблемам в выполнении задач, понижению доверия пользователей и угрозам безопасности. Цель работы — оценить потенциал современных ASR-систем в HRI, а также выявить их ограничения и биазы. ## Метод Исследование основывается на экспериментальном подходе, включающем оценку четырех современных ASR-систем на основе данных из восьми публичных баз данных, представляющих шесть типов сложности: доменно-специфическая, с акцентом, шумная, возрастно-варьирующаяся, имеющая империя, и спонтанная речь. Модели распознавания выслушивались на примере различных типов речи, окружающих технологии в HRI, что позволило выявить различия в их поведении в разных условиях. Техническая архитектура ASR-систем и методы их оценки были выбраны с учетом требований к точности и устойчивости в HRI. ## Результаты Результаты вы most significant variations in performance, hallucination tendencies, and inherent biases, despite similar scores on standard benchmarks. These limitations have serious implications for HRI, where recognition errors can interfere with task performance, user trust, and safety. ## Значимость Полученные результаты имеют значительные потенциальные применения в разработке более надежных и универсальных систем взаимодействия человек-робот. ASR-системы, эффективно работающие в различных условиях, могут существенно улучшить удобство и безопасность HRI. Данные работы могут повлиять на оптимизацию моделей распознавания и их применение в реальных сценариях, включая роботизированные дома, промышленность и здравоохранение. ## Выводы Авторы выводят, что несмотря на прогресс в развитии ASR, существуют серьезные ограничения, которые необходимо устранить для эффективного применения в HRI. Будущие исследования будут сосредотачиваться на улучшении устойчивости моделей к шуму, разнообразию речи и ситуационным сложностям. Также планируется расширение использования наборов данных для более широкой оценки и улучшения ASR-систем. Эти улучшения имеют важное значение для развития надежных и безопасных систем HRI.

Annotation:

Automatic Speech Recognition (ASR) systems in real-world settings need to handle imperfect audio, often degraded by hardware limitations or environmental noise, while accommodating diverse user groups. In human-robot interaction (HRI), these challenges intersect to create a uniquely challenging recognition environment. We evaluate four state-of-the-art ASR systems on eight publicly available datasets that capture six dimensions of difficulty: domain-specific, accented, noisy, age-variant, impair...

ID: 2508.17753v1 cs.RO, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs

2025-08-22

Авторы:

Luca Annese, Sabrina Patania, Silvia Serino, Tom Foulsham, Silvia Rossi, Azzurra Ruggeri, Dimitri Ognibene

## Контекст Последние достижения в области бо LARGE LANGUAGE MODELS (LLMs) и развития фреймворков для реализации рационального мышления дали существенный потенциал для улучшения моделей, которые могут выступать в роли компаньонов и специалистов в коллективных задачах. Однако, среди них возникают серьезные ограждения в понимании того, что другой агент может увидеть или знать. Такие проблемы возникают в связи с недостаточным раскрытием моделей для активного восприятия, участия в коллективной работе и понимания того, что другие знают (епистемический рассуждения). Наша исследовательская проблема заключается в исследовании, насколько удается улучшить эти способности с помощью структурированных примеров, полученных из графов решений, порождаемых планировщиком Fast Downward. Мы хотим протестировать, могут ли эти примеры улучшить точность и эффективность в решении задач, требующих активного восприятия и эпистемической работы в целом. ## Метод Мы разработали специальный подход, который использует графы решений, порождаемые планировщиком Fast Downward, для создания множества структурированных примеров. Эти примеры разделяются на три категории: 1) Оптимальные пути для достижения целей (G-type); 2) Информативные пути, содержащие решения в задачах (E-type); 3) Детальные пошаговые сравнения действий и их альтернатив (L-type). Затем, на основе этих примеров, мы создаем "мысленно-действительные" примеры, где требуется изложение логики каждого решения. Эти примеры используются для обучения агентов, работающих в рамках ReAct-фреймворка. Мы проверяем, насколько эффективны эти примеры в улучшении возможностей агентов по разделению внимания и пониманию того, что другой агент может видеть и узнать. ## Результаты Мы провели эксперименты, в которых LLMs-агенты проходили задачи, требующие активного восприятия и эпистемических рассуждений. Мы сравнивали результаты, полученные с использованием разных видов структурированных примеров. Оказалось, что на задачи, требующие базового фильтра внимания, агенты проявили достаточную эффективность. Однако, когда задачи требуют рассуждений о видимости, скрытых пространствах и стоимости эпистемических действий, агенты начали проявлять существенные недостатки. Например, они не всегда могут справиться с конкретным восприятием пространства и подбирать наиболее эффективные альтернативы действий. ## Значимость Наши результаты показывают, что, несмотря на улучшения в некоторых аспектах, структурированные примеры оказываются недостаточными для достижения значительных улучшений в эпистемических моделях. Например

Annotation:

Recent advances in large language models (LLMs) and reasoning frameworks have opened new possibilities for improving the perspective -taking capabilities of autonomous agents. However, tasks that involve active perception, collaborative reasoning, and perspective taking (understanding what another agent can see or knows) pose persistent challenges for current LLM-based systems. This study investigates the potential of structured examples derived from transformed solution graphs generated by the ...

ID: 2508.14564v1 cs.AI, cs.CL, cs.HC, I.2.9; I.2.10; I.2.7; J.4

arXiv PDF

📄 Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

2025-08-21

Авторы:

Maciej Skorski, Alina Landowska

#### Контекст Бо LLM (Large Language Models) становятся все более важной частью современного цифрового пространства, оперируя в таких областях, как синтез текста, семантический поиск и моделирование диалогов. Однако одним из ключевых вопросов остается их понимание и оценка моральных валют. Несмотря на прогрессы в области NLP (Natural Language Processing), существуют достаточно серьезные проблемы в понимании моральных ценностей, которые могут влиять на качество интерпретаций, продуцируемых этими моделями. Например, модели часто сталкиваются с неоднозначностью в выражениях, предпочтениями подхода или отсутствием контекста. Наше исследование направлено на разбор потенциальных проблем и ограничений моделей в понимании моральных значений, чтобы сформировать более точные и нейтральные подходы к их реализации в будущем. #### Метод Для оценки моральных ценностей, основываемых на текстах, мы разработали новую методологию, основанную на байесовской оценке. Эта методология позволяет учитывать не только ожидаемые значения модели, но и анализировать различия в оценках, даже среди разных групп комментаторов. Мы используем многомерную метрику для выявления не только значений, но также для определения вероятностей разногласий в оценках. Помимо этого, мы применяем GPU-оптимизированный фреймворк для обработки интерпретации моделей и сравнения с реальными данными. Мы реализовали архитектуру с несколькими входами, что позволяет обрабатывать тексты с различными уровнями морального включения. Эта методика использует не только текстовые данные, но также контекст взаимодействия, чтобы собрать более полное представление о моральных вопросах. #### Результаты Мы провели опрос на 100 тысяч текстов из различных источников, включая социальные сети, новости и форумы. Модели, оцененные с помощью нашего подхода, показали себя достаточно эффективно, получив постоянно высокие результаты в сравнении с человеческими оценками. Например, лучшие модели (Claude Sonnet 4 и Llama 4 Maverick) отставали от лучших пользовательских результатов всего на 25%, при этом имея значительно более низкий уровень негативных оценок. Это отражает их более точное и чуткое понимание моральных моментов. Более того, наша байесовская модель, обрабатывая 1 миллион запросов, позволила обнаружить, что чувствительность AI к моральным ценностям выше, чем у человека, что опять-таки подтверждает нашу теорему о том, что AI может лучше оценивать и интерпретировать эти ценности. #### Значимость Наша работа имеет большое значение в сфере моделей языка и использования ими в решении моральных вопросов. Мы показали, что модели могут быть не только

Annotation:

How do large language models understand moral dimensions compared to humans? This first large-scale Bayesian evaluation of market-leading language models provides the answer. In contrast to prior work using deterministic ground truth (majority or inclusion rules), we model annotator disagreements to capture both aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty (model domain sensitivity). We evaluate top language models (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maveric...

ID: 2508.13804v1 cs.CL, cs.HC, 68T50, 62F15, 62P25, I.2.7; K.4.1; J.4

arXiv PDF

📄 CHBench: A Cognitive Hierarchy Benchmark for Evaluating Strategic Reasoning Capability of LLMs

2025-08-19

Авторы:

Hongtao Liu, Zhicheng Du, Zihe Wang, Weiran Shen

## Контекст Стратегическое разумение является ключевым аспектом искусственного разума, определяющим успешность взаимодействия роботов с окружающим миром. Оценивать этот аспект чрезвычайно сложно, так как существующие методы часто основываются на метриках эффективности, которые оказываются недостаточно надежными из-за разнообразия поведенческих моделей противников и структур игр. Недостаток универсальных методов по evaluation стратегического разума значительно ограничивает возможности интеллектуальных систем внедряться в реальные приложения. Для решения этой проблемы, мы предлагаем **CHBench** — новый фреймворк для оценки стратегического разума, основанный на моделях когнитивного хиерархии, известных из экономической теории. Наша гипотеза заключается в том, что агенты имеют ограниченное разумение, то есть различные агенты применяют разные уровни рациональности в своих решениях. ## Метод CHBench представляет собой трехфазную систематическую модель для оценки стратегического разума. В первой фазе мы выбираем 15 нормальных игр, структура которых позволяет выявить различные уровни стратегического разума. Во второй фазе, мы используем данные из шести современных глубоких нейронных сетей (LLMs), обученных различным типам задач, чтобы получить многообразие стратегических моделей. Затем, в третьей фазе, мы применяем эти модели для систематического тестирования поведения LLMs в разных ситуациях. Использование этой модели позволяет установить не только качество поведения LLMs, но и выявить влияние различных механизмов (например, чат-функции и памяти) на их стратегическое решающие способности. ## Результаты Мы провели эксперименты, используя CHBench для оценки шести современных LLMs в 15 играх. Результаты показали, что LLMs показывают схожую стратегическую работу в разных ситуациях, что confirmeaza логику фреймворка. Мы также провели эксперименты, которые показали, что Chat Mechanism сильно затрудняет стратегическое разумение, но Memory Mechanism улучшает его. Эти результаты подтверждают, что CHBench представляет собой надежный инструмент для оценки стратегического разума LLMs, с возможностью применения в различных прикладных задачах. ## Значимость CHBench может быть применен в различных прикладных областях, включая разработку и оценку стратегических алгоритмов, ботов для игр, систем управления и даже в сфере роботов-консультантов. Он предлагает новый подход к оценке стратегии, который не зависит от конкретных метрик эффективности. Это позволяет оценивать стратегическое разумение llms с более широким перспективным взглядом, с учетом разных моделей рациональности. Мы так

Annotation:

Game-playing ability serves as an indicator for evaluating the strategic reasoning capability of large language models (LLMs). While most existing studies rely on utility performance metrics, which are not robust enough due to variations in opponent behavior and game structure. To address this limitation, we propose \textbf{Cognitive Hierarchy Benchmark (CHBench)}, a novel evaluation framework inspired by the cognitive hierarchy models from behavioral economics. We hypothesize that agents have b...

ID: 2508.11944v1 cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps

2025-08-19

Авторы:

Kangyu Wang, Hongliang He, Lin Liu, Ruiqi Liang, Zhenzhong Lan, Jianguo Li

#### Контекст Large Language Models (LLMs) и Multimodal Large Language Models (MLLMs) обеспечили всплеск развития искусственного интеллекта, достигая близкого к человеческому уровня эффективности в различных задачах. Несмотря на это, большинство существующих бенчмарков и рейтинговых платформ (например, MMLU и Chatbot Arena) опираются на статические данные или подборку общедоступных задач, не отражающих настоящие сценарии применения в реальной жизни. Это существенно ограничивает возможность оценить реальное качество и применимость моделей. Инновационная платформа Inclusion Arena призвана устранить этот фактор, предлагая новый подход к оценке моделей на основе реальных пользовательских интеракций. #### Метод Inclusion Arena представляет собой платформу для live leaderboard, где модели оцениваются на основе парного сравнения, внедренного непосредственно в приложения, использующие AI. Методология основывается на двух ключевых инновациях: (1) **Placement Matches**, механизм, позволяющий быстро оценить новые модели при их внедрении в платформу; и (2) **Proximity Sampling**, стратегия сравнения моделей, выделяющая модели с близким уровнем качества, чтобы увеличить точность и стабильность рейтингов. Архитектура платформы интегрирует эти методы в натуральные пользовательские интеракции, обеспечивая действительно практические оценки моделей. #### Результаты Платформа провела широкие эмпирические эксперименты, используя стандартные и пользовательские данные в различных сценариях. Результаты показали, что Inclusion Arena достигает более высокой детерминированности рейтингов по сравнению с традиционными подходами. Метод Placement Matches позволяет быстро создавать надежные оценки для новых моделей, а Proximity Sampling увеличивает уровень информативности сравнения, уменьшая риск неточности рейтинга. Также тесты показали, что Inclusion Arena значительно снижает риск внешних вмешательств или манипуляций. #### Значимость Inclusion Arena может использоваться в различных областях, где требуется оценка моделей для реальных приложений, таких как NLP, обработка мультимодальных данных, интеллектуальные системы рекомендаций или системы взаимодействия с пользователем. Основные преимущества заключаются в том, что платформа использует реальные данные интеракций, обеспечивает более точные рейтинги, и снижает риск выполнять нечестные или неэффективные модели. Потенциальное влияние заключается в улучшении качества моделей AI, их применимости и стабильности в реальных сценариях. #### Выводы Inclusion Arena успешно ставит под угрозу традиционные подходы к оценке моделей, предлагая новый, более функциональный метод, основанный на реальных пользовательских данных. На данном этапе, плат

Annotation:

Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have ushered in a new era of AI capabilities, demonstrating near-human-level performance across diverse scenarios. While numerous benchmarks (e.g., MMLU) and leaderboards (e.g., Chatbot Arena) have been proposed to help evolve the development of LLMs and MLLMs, most rely on static datasets or crowdsourced general-domain prompts, often falling short of reflecting performance in real-world applications. To bridge this critic...

ID: 2508.11452v1 cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Pragmatics beyond humans: meaning, communication, and LLMs

2025-08-12

Авторы:

Vít Gvoždiak

## Контекст Прагматика, как наука о взаимодействии через язык, традиционно рассматривается в рамках трёх основных компонентов: семиотики, семиоза и семиотика. Однако появление больших лингвистических моделей (LLMs) в широком социальном контексте изменило понимание этих компонентов. Задача прагматики теперь не только синтаксического и семантического уровней, но и социальной интерактивности, где люди и технологии взаимодействуют. В этом контексте возникают новые проблемы: как LLMs взаимодействуют с человеком, как они предсказывают смысл, и как эти процессы повлияли на традиционную прагматику. Необходимо развить новую методологию, которая учитывает природу генерируемого текста LLMs и включает в себя субъектов общения как лицо, которое не только понимает, но и формирует контекст. ## Метод Методология работы основывается на трёх главных направлениях: 1) пересмотр традиционной значимости прагматики в современном контексте, 2) развитие нового подхода к пониманию HMC (Human-Machine Communication) и 3) анализ проблем substitutionalism в области LLMs. Архитектура исследования строится на основе теоретических разработок и экспериментов, направленных на изучение контекстного взаимодействия между пользователями и LLMs. Используются методы вероятностной прагматики, в частности, Rational Speech Act (RSA) фреймворка, чтобы понять, как LLMs выстраивают смысл в социальных ситуациях. ## Результаты В результате исследования было проанализировано, что LLMs не только выводят смысл из контекста, но и формируют его в процессе общения. Был показан, что при этом происходит контекстная "frustration" — ситуация, в которой пользователь, понимая, что ему необходимо приложить больше усилий, чтобы сформировать контекст для LLMs, который может быть осмыслен. Также был проанализирован вклад генерируемого текста LLMs в создание контекста, что влияет на значимость прагматических рассуждений. Таким образом, в некоторых случаях пользователь должен принимать на себя роль координатора контекста, чтобы добиться нужного результата в общении с генерирующей моделью. ## Значимость Новый подход к прагматике, который был предложен в работе, может иметь широкое применение в области современных коммуникационных технологий. Он позволяет улучшить интерпретацию текстов, создаваемых LLMs, и избавиться от антропоморфных биасов, которые существуют в традиционных подходах. Это может привести к более точной оценке контекста, выработке более эффективных способов общения с LLMs, а также к развитию новых подходов в области обучения и социального взаимодействия. ## Выводы В результате исследования было у

Annotation:

The paper reconceptualizes pragmatics not as a subordinate, third dimension of meaning, but as a dynamic interface through which language operates as a socially embedded tool for action. With the emergence of large language models (LLMs) in communicative contexts, this understanding needs to be further refined and methodologically reconsidered. The first section challenges the traditional semiotic trichotomy, arguing that connectionist LLM architectures destabilize established hierarchies of mea...

ID: 2508.06167v1 cs.CL, cs.HC

arXiv PDF

📄 EICAP: Deep Dive in Assessment and Enhancement of Large Language Models in Emotional Intelligence through Multi-Turn Conversations

2025-08-12

Авторы:

Nizi Nazar, Ehsaneddin Asgari

## Контекст Emotional Intelligence (EI) является важной, но до сих пор недостаточно исследованной сферой развития людьми-ориентированных Бо LLM. В актуальной ситуации, существуют проблемы в том, что традиционные модели не достаточно эффективно обрабатывают сложные эмоциональные задачи, что приводит к ограниченности их полезности в реальном мире. Это мотивирует развитие более тонких методов оценки и улучшения EI в LLMs, чтобы гарантировать их эффективность в общении с разными лингвистическими и культурными фоновыми контекстами. ## Метод Для анализа и повышения EI в LLMs, авторы предлагают EICAP-Bench, новую многообразную многократную контрольную программу (MCQ), основанную на многоразовых диалогах. Она включает в себя разделы по эмоциональному отслеживанию, выводу причин, оценке и сформированному эмоционально-соответствующему ответу. Используя этот подход, авторы оценивают пять слоев EI в пяти LLMs, включая LLaMA3, Gemma и Qwen2.5. Для повышения EI, они применяют методы тюнинга, используя данные UltraChat. ## Результаты Тесты показали, что Qwen2.5-Instruct достигает наилучших результатов среди этих моделей. В ходе тюнинга с использованием UltraChat, только слой Appraisal (оценка) показал значительные улучшения. Это указывает на недостаточность традиционных методов предварительного обучения и инструкционного тюнинга для развития глубокого разума и эмоционального разума в LLMs. ## Значимость Результаты имеют значительное значение для области ИИ, особенно в развитии моделей, которые могут лучше управлять эмоциональными задачами в разных культурных и языковых контекстах. Эти новшества могут применяться в здравоохранении, образовании и сферах, требующих деличного общения. ## Выводы Основные достижения включают в себя развитие нового EI-Benchmark и улучшение понимания ограничений текущих моделей. Будущие исследования должны сосредоточиться на развитии новых стратегий для тюнинга, ориентированных на повышение EI в LLMs, для достижения более глубокого и эффективного общения.

Annotation:

Emotional Intelligence (EI) is a critical yet underexplored dimension in the development of human-aligned LLMs. To address this gap, we introduce a unified, psychologically grounded four-layer taxonomy of EI tailored for large language models (LLMs), encompassing emotional tracking, cause inference, appraisal, and emotionally appropriate response generation. Building on this framework, we present EICAP-Bench, a novel MCQ style multi-turn benchmark designed to evaluate EI capabilities in open-sou...

ID: 2508.06196v1 cs.CL, cs.HC

arXiv PDF

📄 "Harmless to You, Hurtful to Me!": Investigating the Detection of Toxic Languages Grounded in the Perspective of Youth

2025-08-09

Авторы:

Yaqiong Li, Peng Zhang, Lin Wang, Hansu Gu, Siyuan Qiao, Ning Gu, Tun Lu

Молодые пользователи социальных сетей часто воспринимают как язык, который неявно считается безопасным для взрослых, опасным для себя. Однако существующие модели обнаружения токсичности текстов не учитывают эти отличия восприятия, что приводит к недостаточной эффективности во взаимодействии с молодежью. В статье предлагается изучить этот аспект, определив признаки, характеризующие токсичность языка, особенно для молодежи, и проверив, насколько существующие модели способны точно его обнаруживать. Для этого был создан первый китайский датасет, охватывающий такой язык. На основе исследования выяснилось, что контекст включая источник высказывания и текстовые признаки, важен для понимания молодежной токсичности. Обучение моделей с учетом этих факторов позволяет улучшить точность детекции. В конце же авторы дают рекомендации для будущих исследований в области молодежно-центрированного обнаружения токсичности.

Annotation:

Risk perception is subjective, and youth's understanding of toxic content differs from that of adults. Although previous research has conducted extensive studies on toxicity detection in social media, the investigation of youth's unique toxicity, i.e., languages perceived as nontoxic by adults but toxic as youth, is ignored. To address this gap, we aim to explore: 1) What are the features of ``youth-toxicity'' languages in social media (RQ1); 2) Can existing toxicity detection techniques accurat...

ID: 2508.02094v1 cs.CL, cs.HC

arXiv PDF

Показано 61 - 70 из 73 записей