📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Investigating Intersectional Bias in Large Language Models using Confidence Disparities in Coreference Resolution

2025-08-13

Авторы:

Falaah Arif Khan, Nivedha Sivakumar, Yinong Oliver Wang, Katherine Metcalf, Cezanne Camacho, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff

## Контекст Large language models (LLMs) — мощные языковые модели, обладающие высоким уровнем производительности и широко распространенными в сфере решения задач решения, включая сферу принятия решений в таких областях, как трудоустройство и вступительные экзамены. Однако их влияние не ограничивается положительными аспектами. Научно принято, что AI системы могут отражать и усиливать социальные биасы, что вызывает опасения в отношении потенциального вреда от использования таких систем в критически важных социальных сферах. До этого уже было проведено многочисленное исследование, показавшее, что модели LLM могут склоняться к демографическим дискриминациям в различных языковых задачах. Мы расширяем этот подход, проводя оценку биаса в терминах интерсекционального подхода, который учитывает взаимодействие различных факторов дискриминации. ## Метод Мы разработали новый бенчмарк под названием **WinoIdentity**, который является усовершенствованием WinoBias датасета, добавив 25 новых демографических маркеров (таких как возраст, национальность, расовые признаки), которые взаимодействуют с гендером. Это способствовало созданию 245 700 запросов для оценки 50 различных шаблонов биаса. Мы сосредоточились на потенциальных характеристиках, связанных с упущениями в результатах в ситуациях подреpresentation (безделющей дискриминации). В качестве новой метрики мы предложили **Coreference Confidence Disparity**, которая измеряет разницу в уверенности модели LLM в зависимости от интерсекциональных характеристик. Мы провели эксперименты с 5 недавно опубликованными LLMs. ## Результаты Наши эксперименты показали, что потенциально вызволяющие биасы могут достигать до 40% в зависимости от таких атрибутов, как телосложение, половая ориентация и социально-экономический статус. Мы обнаружили, что LLMs чаще были неуверенными в предположениях в anti-stereotypical ситуациях, а также уменьшалась уверенность даже в отношении гегемонических маркеров. Это указывает на то, что некоторые текущие успехи моделей LLM могут быть связаны с запоминанием, а не с логическим рассуждением. Это две независимые ошибки, связанные с значением и достоверностью, могут существенно повлиять на социальные злоупотребления. ## Значимость Наша работа открывает путь к пониманию интерсекциональных биасов в LLMs и их последствиях в критически важных социальных сферах. Мы видим применение наших результатов в сфере трудоустройства, образования и финансовых услуг. Эти результаты могут помочь внедрить более справедливые и точные модели в реальном мире и снизить риски социального вреда. ## Выводы Мы указали на

Annotation:

Large language models (LLMs) have achieved impressive performance, leading to their widespread adoption as decision-support tools in resource-constrained contexts like hiring and admissions. There is, however, scientific consensus that AI systems can reflect and exacerbate societal biases, raising concerns about identity-based harm when used in critical social contexts. Prior work has laid a solid foundation for assessing bias in LLMs by evaluating demographic disparities in different language r...

ID: 2508.07111v1 cs.CL, cs.AI

arXiv PDF

📄 Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens

2025-08-13

Авторы:

Anna Seo Gyeong Choi, Hoon Choi

## Контекст Automatic Speech Recognition (ASR) — это технология, которая позволяет компьютерам переводить речь на текст. Она используется во многих областях, от смартфонов до систем оперативной поддержки. Однако недостаточно внимания уделяется проблеме справедливости в ASR. Несправедливость в ASR может возникать, когда система плохо распознает речь отдельных групп людей, например, носителей нестандартных диалектов. Это может привести к недостатку доверия к технологиям и даже к дискриминации. Авторы статьи предлагают рассмотреть эту проблему с позиции философии, чтобы понять, как ASR может укреплять существующие исторические несправедливости. ## Метод Авторы используют философский анализ, чтобы изучить проблему справедливости в ASR. Они различают два типа дискриминации: нейтральную классификацию (discriminate1) и вредную дискриминацию (discriminate2). Дискриминация в ASR относится к вредному типу, когда система постоянно неверно распознает речь нестандартных диалектов. Также они идентифицируют три этических аспекта, влияющих на справедливость ASR: 1. **Темпоральная нагрузка** (temporal taxation) — это нагрузка, которая предлагается носителям нестандартных диалектов, когда они должны постоянно повторяться или исправлять распознанный текст. 2. **Разрыв в диалогах** (conversational disruption) — когда ASR неправильно распознает речь, это может нарушить диалог и вызвать неудобство. 3. **Подкрепление идентичности** (identity reinforcement) — речь является сильным идентификатором личности и культуры, поэтому неправильное распознание может привести к чувству неуважения. ## Результаты Авторы проанализировали существующие ASR-системы и показали, как они могут поддерживать и усиливать существующие неравенства в языковых стандартах. Например, системы часто лучше работают с английским, но стараются распознать речь отдельных сообществ, например, афроамериканских диалектов. Это приводит к темпоральной нагрузке и неприятным ощущениям для носителей таких диалектов. Также было проанализировано, как ASR может повлиять на конфликты в диалогах и нарушить поток разговора. ## Значимость Эта работа имеет значимость в следующих областях: 1. **Технологии распознавания речи** — показано, как справедливость ASR может повлиять на пользователей и повысить доверие к технологиям. 2. **Социальная справедливость** — теоретические выводы могут помочь избежать дискриминации в технологиях и создать более социально честные системы. 3. **Культурная политика** — это подход может помочь учитывать разнообразие языков и культур в разработке технологий. ## Выводы А

Annotation:

Automatic Speech Recognition (ASR) systems now mediate countless human-technology interactions, yet research on their fairness implications remains surprisingly limited. This paper examines ASR bias through a philosophical lens, arguing that systematic misrecognition of certain speech varieties constitutes more than a technical limitation -- it represents a form of disrespect that compounds historical injustices against marginalized linguistic communities. We distinguish between morally neutral ...

ID: 2508.07143v1 cs.CL, cs.AI

arXiv PDF

📄 Improved Personalized Headline Generation via Denoising Fake Interests from Implicit Feedback

2025-08-13

Авторы:

Kejin Liu, Junhong Lian, Xiang Ao, Ningtao Wang, Xing Fu, Yu Cheng, Weiqiang Wang, Xinyu Liu

#### Контекст Подробное описание области исследования, существующих проблем и мотивации ==================================================================== Создание точных персонализированных новостных заголовков является ключевым заданием в сфере рекомендательных систем. Это позволяет улучшить пользовательское вовлечение, увеличить удовлетворение и, в итоге, повысить производительность системы. Основной проблемой в данной области является то, что существующие методы часто не учитывают "шумные" поведенческие данные, которые могут искажать профиль пользователя. Эти "шумные" данные возникают из-за неисключительного интереса пользователя к конкретным новостным материалам, что приводит к неточной характеристике его интересов. Эти ошибки могут привести к генерированию неточных или несоответствующих заголовков, что снижает качество рекомендаций и пользовательский опыт. #### Метод Детальное описание методологии, технических решений и архитектуры ================================================================= Предлагаемый подход, названный **Personalized Headline Generation via Denoising Fake Interests from Implicit Feedback (PHG-DIF)**, включает несколько ключевых шагов. Во-первых, **двойной фильтр** удаляет "шумные" данные из исторических кликов, определяя их по коротким продолжительностям просмотра и аномальным кликам. Во-вторых, **мультиуровневая временная фузирование** позволяет динамически профилировать многомерные интересы пользователя, учитывая их эволюцию во времени. Это позволяет создавать более точные и актуальные новостные заголовки. Фреймворк PHG-DIF также включает в себя архитектуру, основанную на **transformer-based models**, которая обеспечивает эффективное профилирование пользователей и новостных событий. #### Результаты Описание экспериментов, используемых данных и полученных результатов ==================================================================== Чтобы проверить эффективность PHG-DIF, авторы провели эксперименты на новой б BENCHMARK-датесете **DT-PENS**, который содержит данные о кликах 1000 пользователей и почти 10000 аннотированных новостных заголовков. Результаты показали, что PHG-DIF значительно улучшает качество новостных заголовков, повышая как прирост кликов, так и степень точности рекомендаций по сравнению с современными методами. Эти результаты подтверждают, что PHG-DIF способен эффективно удалять "шумные" данные и динамически профилировать интересы пользователей, что приводит к более точным и персонализированным рекомендациям. #### Значимость Области применения, преимущества и потенциальное влияние ======================================================== Предложенный подход может быть применен в различных сферах, включая новостные системы рекомендаций, социальные сети и персонализированные рекламные системы. Он предлагает несколько преимуществ, включая улучшенное качество рекомендаций

Annotation:

Accurate personalized headline generation hinges on precisely capturing user interests from historical behaviors. However, existing methods neglect personalized-irrelevant click noise in entire historical clickstreams, which may lead to hallucinated headlines that deviate from genuine user preferences. In this paper, we reveal the detrimental impact of click noise on personalized generation quality through rigorous analysis in both user and news dimensions. Based on these insights, we propose a ...

ID: 2508.07178v1 cs.CL, cs.AI

arXiv PDF

📄 Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks

2025-08-13

Авторы:

Jiaqi Yin, Yi-Wei Chen, Meng-Lung Lee, Xiya Liu

## Контекст В современных предприятиях развитие enterprise data pipelines становится все более сложным в связи с использованием множества языков программирования, сложных преобразований данных и многоязычностью. Эти факторы приводят к "семантическому расхождению" (semantic drift) между оригинальными метаданными и окончательными данными, что снижает эффективность таких систем, как Retrieval-Augmented Generation (RAG) и Text-to-SQL. Без точного понимания структуры и преобразований в пайплайнах, предприятия сталкиваются с трудностями в управлении данными, гарантировании их реплицируемости и соблюдении нормативных требований. Наша мотивация заключается в разработке автоматизированных методов для извлечения информации о схеме (schema lineage) из мультиязычных пайплайнов, что позволит устранить эту проблему и обеспечить более точное управление данными. ## Метод Мы предлагаем многоязычный фреймворк для извлечения детальной схемы линейки (schema lineage) из скриптов пайплайнов. Методология основывается на четырёх основных компонентах: source schemas (исходные схемы), source tables (исходные таблицы), transformation logic (логика преобразований) и aggregation operations (агрегационные операции). Метод определяет структурные и семантические аспекты каждого компонента, превращая их в стандартизированный вид, который достаточно точен для анализа и управления. Также мы представляем новую метрику Schema Lineage Composite Evaluation (SLiCE) для оценки качества извлечённых данных с целью проверки их структурной и семантической точности. ## Результаты Мы провели эксперименты с использованием 1,700 manuаlly аnnotated lineages из реальных промышленных скриптов. Наши тесты отражают как структурную точность, так и семантическую фаильность. Мы разбили эксперименты на 12 языковых моделей, начиная от small language models (SLMs) с 1.3B параметров до large language models (LLMs), таких как GPT-4o и GPT-4.1. Результаты показывают, что более крупные модели с большим количеством параметров показывают лучшие результаты, особенно в смешанных условиях с различным размером данных и сложностью задач. Особенно заметны преимущества 32B open-source model, который, используя один резолюционный трасс, может достичь результатов, сравнимых с GPT-series, при использовании стандартных методов подсказок (prompting techniques). ## Значимость Наше решение открывает широкие возможности для применения в сферах, таких как Retrieval-Augmented Generation (RAG), Text-to-SQL, и другие системы, требующие точного понимания данных. Оно обеспечивает улучшенную транспарентность пайплайнов, повышает эффективность гуманных ресурсов, значительно уменьшая время, потраченное на поиск и устранение ошибок. Это также может сыграть ключевую роль в обес

Annotation:

Enterprise data pipelines, characterized by complex transformations across multiple programming languages, often cause a semantic disconnect between original metadata and downstream data. This "semantic drift" compromises data reproducibility and governance, and impairs the utility of services like retrieval-augmented generation (RAG) and text-to-SQL systems. To address this, a novel framework is proposed for the automated extraction of fine-grained schema lineage from multilingual enterprise pi...

ID: 2508.07179v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 DySK-Attn: A Framework for Efficient, Real-Time Knowledge Updating in Large Language Models via Dynamic Sparse Knowledge Attention

2025-08-13

Авторы:

Kabir Khan, Priya Sharma, Arjun Mehta, Neha Gupta, Ravi Narayanan

################################# ## Контекст ################################# Large Language Models (LLMs) — это мощные инструменты для обработки текстов, но они имеют существенную проблему: их знания являются статичными и быстро устаревают. Например, при обновлении статистических данных или изменении событий в мире, LLMs не могут адаптироваться без дорогостоящей и время-затратной процедуры переучивания. Такие процессы требуют огромных вычислительных ресурсов и могут привести к задержкам в развертывании обновленных моделей. Кроме того, традиционные методы редактирования знаний могут привести к нежелательным побочным эффектам, таким как неточность или удаление ценной информации. Данная статья рассматривает эту проблему и предлагает фреймворк DySK-Attn, который позволяет LLMs эффективно обновлять свои знания в реальном времени. Основной идеей является использование динамического знаний сграфа (Knowledge Graph, KG), который может быть мгновенно обновлен без необходимости переучивания модели. ################################# ## Метод ################################# Фреймворк DySK-Attn основывается на синергии между LLM и динамическим KG. Главная инновация заключается в использовании динамической спарсед-аттенции (Sparse Knowledge Attention), которая исключает ненужную информацию за счёт выбора только наиболее связанных фактов с запросом. В свою очередь, спарсед-аттенция работает примерно следующим образом: сначала выполняется поиск по базе знаний с использованием ключевых слов запроса. Затем, на основе полученных результатов, выбирается наиболее подходящий набор фактов, который после этого передаётся LLM для генерации ответа. Эта стратегия позволяет избежать вычислительной сложности десятичной аттенции к большой базе знаний, увеличивая вместо этого эффективность и точность полученных ответов. Также, DySK-Attn включает гибкие механизмы для обновления KG без перестройки модели от начала до конца. Это достигается за счёт интеграции специальных модулей обновления, которые могут быть применены непосредственно во время работы модели. ################################# ## Результаты ################################# Для оценки эффективности DySK-Attn проведено рядовое экспериментальное исследование на задачах время-зависимого реагирования (time-sensitive question-answering). Использовались три типа датасетов: 1. **Новости**: для тестирования модели в области новостных событий. 2. **Политические события**: для проверки точности в терминах политических данных. 3. **Нефтегазовые рынки**: для проверки работы модели в области финансовых данных. В результате, DySK-Attn показала значительный выигрыш в точности ответов и вычислительной эффективности по сравнению с традиционными RAG-моделями и техниками моделирования. Например, в задаче обновления дан

Annotation:

Large Language Models (LLMs) suffer from a critical limitation: their knowledge is static and quickly becomes outdated. Retraining these massive models is computationally prohibitive, while existing knowledge editing techniques can be slow and may introduce unforeseen side effects. To address this, we propose DySK-Attn, a novel framework that enables LLMs to efficiently integrate real-time knowledge from a dynamic external source. Our approach synergizes an LLM with a dynamic Knowledge Graph (KG...

ID: 2508.07185v1 cs.CL, cs.AI, cs.LG, I.2.7; H.3.3; H.2.8

arXiv PDF

📄 Adapting LLMs to Time Series Forecasting via Temporal Heterogeneity Modeling and Semantic Alignment

2025-08-13

Авторы:

Yanru Sun, Emadeldeen Eldele, Zongxia Xie, Yucheng Wang, Wenzhe Niu, Qinghua Hu, Chee Keong Kwoh, Min Wu

## Контекст Временные ряды широко используются в различных областях, включая экономику, финансы, медицину и промышленность. Их анализ и прогнозирование являются ключевыми задачами, требующими точности и надежности. Несмотря на успехы в области прогнозирования временных рядов, существуют значительные проблемы. Одной из них является **информационная несовместимость** между временными рядами, представленными в виде непрерывных числовых сигналов, и текстовыми данными, обрабатываемыми LLMs. Другая проблема — **хаотичность природы временных рядов**, которая приводит к различным структурам и характеристикам в разных сегментах. Эти проблемы существенно ограничивают эффективность использования LLMs для прогнозирования временных рядов. Мотивацией для данного исследования является развитие методов, позволяющих LLMs конкретизировать свои сильные стороны, такие как мощь общеробычного моделирования и синтаксических возможностей, для проблемы временных рядов. Такие методы могут позволить повысить точность прогнозов и улучшить общую эффективность систем прогнозирования. ## Метод Мы предлагаем **TALON** — рамберство, которое улучшает моделирование временных рядов с помощью ЛСМ (Large Sequence Models), решая проблемы **информационной несовместимости** и **хаотичности временных рядов**. - **Heterogeneous Temporal Encoder (HTE)**: Этот компонент разбивает временные ряды на структурно связанные сегменты, позволяя **локализованному экспертному моделированию** в разных частях ряда. Это позволяет ЛСМ более точно адаптироваться к разным характеристикам временных рядов. - **Semantic Alignment Module (SAM)**: Модуль выравнивания семантических представлений устраняет проблему модальности, активно участвуя в преобразовании временных рядов в **LLM-совместимые представления**, не требуя ручных промптов во время прогнозирования. ## Результаты Используя 7 реальных наборов данных для прогнозирования временных рядов, мы провели эксперименты с TALON и сравнили результаты с текущими лидерами в области. Наши результаты показали, что TALON обеспечивает **улучшение MSE до 11%** по сравнению с современными методами. Это свидетельствует о том, что интеграция **локальной детализации** (через HTE) и **семантического выравнивания** (через SAM) действительно эффективна. Также мы провели анализ того, каким образом **SAM** позволяет устранить проблему модальности, а **HTE** повышает точность прогнозов, особенно в условиях сильных изменений временных рядов. ## Значимость Результаты TALON демонстрируют, что он может быть применен в различных областях, таких как финансы, экономика, фарма

Annotation:

Large Language Models (LLMs) have recently demonstrated impressive capabilities in natural language processing due to their strong generalization and sequence modeling capabilities. However, their direct application to time series forecasting remains challenging due to two fundamental issues: the inherent heterogeneity of temporal patterns and the modality gap between continuous numerical signals and discrete language representations. In this work, we propose TALON, a unified framework that enha...

ID: 2508.07195v1 cs.CL, cs.AI

arXiv PDF

📄 Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models

2025-08-13

Авторы:

Qiongqiong Wang, Hardik B. Sailor, Jeremy H. M. Wong, Tianchi Liu, Shuo Sun, Wenyu Zhang, Muhammad Huzaifah, Nancy Chen, Ai Ti Aw

## Контекст В последние годы появились большие модели языка, которые обладают высокой точностью в обработке текстовых данных. Однако в сфере распознавания речи эти модели часто сталкиваются с проблемами, связанными с недостаточным пониманием контекста и паралюнгвистических признаков, таких как эмоциональные оттенки или тональность. Это ограничивает их применение в сценариях, требующих эмоционального рассуждения, таких как взаимодействия с клиентами или помощь людям с ограниченными функциями языка. Необходимо развить методы, которые позволят моделям лучше понимать и реагировать на эти паралюнгвистические сигналы, улучшая их эмоциональную интеллектуальность. ## Метод Мы предлагаем два подхода для включения контекста и паралюнгвистических признаков в обучение больших моделей речевого понимания. **Первый подход** — это прямое использование паралюнгвистической метаинформации, такой как аннотации эмоций, напрямую в процессе обучения модели. **Второй подход** — это автоматическое генерирование вопросов-ответов (QA-пар) на основе категориальных и димиенциональных аннотаций эмоций, а также речевых транскрипций. Этот подход позволяет модели не только получить информацию о контексте, но и сформировать самостоятельные мысли об эмоции, улучшая ее углубленное понимание. ## Результаты Мы провели эксперименты с применением двух подходов на корпусе QA-пар с человеческими аннотациями эмоций. Эксперименты показали, что **автоматическое генерирование QA-пар повышает точность модели на 38.41% в сравнении с базовой версией LLM**. Когда оба подхода (explicit и implicit) объединяются, результаты улучшаются до **46.02%**, что демонстрирует эффективность комбинированного подхода. Также мы проверили надежность LLM-judge, обнаружив высокую корреляцию с классическими методами оценки качества моделей. ## Значимость Наши результаты доказывают, что модели с поддержкой контекста и паралюнгвистических признаков могут значительно улучшиться в задачах, требующих эмоционального рассуждения. Это открывает широкие перспективы для использования в сферах, таких как клиентская служба, медицинское обслуживание и социальная поддержка. Преимущества нашего подхода также заключаются в том, что он может быть интегрирован в уже существующие модели без внесения значительных изменений в архитектуру и обучение. Это делает его привлекательным для практического применения. ## Выводы Мы успешно продемонстрировали, что интеграция контекста и паралюнгвистических признаков в модели речи-языка может значительно улучшить их эмоциональное понимание. Нашей

Annotation:

Current large speech language models (Speech-LLMs) often exhibit limitations in empathetic reasoning, primarily due to the absence of training datasets that integrate both contextual content and paralinguistic cues. In this work, we propose two approaches to incorporate contextual paralinguistic information into model training: (1) an explicit method that provides paralinguistic metadata (e.g., emotion annotations) directly to the LLM, and (2) an implicit method that automatically generates nove...

ID: 2508.07273v1 cs.CL, cs.AI, eess.AS

arXiv PDF

📄 MAQuA: Adaptive Question-Asking for Multidimensional Mental Health Screening using Item Response Theory

2025-08-13

Авторы:

Vasudha Varadarajan, Hui Xu, Rebecca Astrid Boehme, Mariam Marlan Mirstrom, Sverker Sikstrom, H. Andrew Schwartz

#################### ## Контекст #################### В последние годы повышается внимание к оценке и мониторингу ментального здоровья в реальном времени, особенно в условиях увеличения спроса на психологические услуги. Однако традиционные методы оценки не всегда эффективны, так как требуют много времени или не обеспечивают точности в диагностике многообразных трансдиагностических симптомных профилей. Большие языковые модели (LLM) обещают решать эти проблемы, предлагая интерактивные и скалярные способы оценки. Однако использование LLM в сфере оценки ментального здоровья также имеет свои недостатки: постоянное задавание вопросов может напрячь пользователя и оказаться неэффективным. Необходимо разработать метод, который бы уменьшил количество запросов, сохранив точность диагностики. #################### ## Метод #################### Мы предлагаем MAQuA (Adaptive Question-Asking), новую адаптивную систему для вопрошения, основанную на теории ответа на запросы (IRT) и анализе факторов. Этот подход оптимизирует порядок вопросов, учитывая необходимость максимального получения информации для оценки множества ментальных здоровья показателей одновременно. Обучение системы происходит на основе многорезультатного моделирования языковых ответов и анализа факторов с помощью IRT. Машинное обучение использует сложные модели, чтобы выбирать вопросы, которые приведут к наиболее информативным ответам на текущем шаге. Это позволяет снизить бесполезные запросы и увеличить точность диагнозирования. #################### ## Результаты #################### Мы провестили эксперименты на новой коллекции данных, охватывающей разные аспекты ментального здоровья. Результаты показали, что MAQuA уменьшает количество запросов, необходимых для достижения стабильности результатов, на 50-87% в сравнении с системами, использующими случайный порядок вопросов. Например, используя MAQuA, можно достичь стабильных результатов в диагностике депрессии с 71% меньшим количеством вопросов. Еще MAQuA демонстрирует робастные результаты в диагностике обоих типов симптомов: внутренних (депрессия, тревожность) и внешних (наркотическое зависимость, приступы еды). Благодаря стратегиям раннего остановки, MAQuA также уменьшает время, необходимое пользователю для прохождения оценки. #################### ## Значимость #################### MAQuA может быть применен в различных сферах, включая клиническую практику, образовательные учреждения и индивидуальные исследования. Он предоставляет следующие преимущества: повышение точности диагноза, уменьшение времени и усилий, необходимых для оценки, и улучшение пользовательского опыта. Этот подход открыва

Annotation:

Recent advances in large language models (LLMs) offer new opportunities for scalable, interactive mental health assessment, but excessive querying by LLMs burdens users and is inefficient for real-world screening across transdiagnostic symptom profiles. We introduce MAQuA, an adaptive question-asking framework for simultaneous, multidimensional mental health screening. Combining multi-outcome modeling on language responses with item response theory (IRT) and factor analysis, MAQuA selects the qu...

ID: 2508.07279v1 cs.CL, cs.AI

arXiv PDF

📄 "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas

2025-08-13

Авторы:

Junchen Ding, Penghao Jiang, Zihao Xu, Ziqi Ding, Yichen Zhu, Jiaojiao Jiang, Yuekang Li

## Контекст В последние годы значительное внимание уделяется исследованию возможностей и функциональных характеристик Бо LLM (большие языковые модели), включая их участие в принятии этически важных решений. Эти модели применяются в различных сферах, включая право, медицину и социальную сферу. Однако их возможности в моральном рассуждении и понимании значения человеческих ценностей до сих пор недостаточно изучены. Наличие моральных базисов в Бо LLM является важной задачей для того, чтобы обеспечить их безопасное и эффективное использование в решении проблем, возникающих в сложных ситуациях. Это исследование поднимает вопрос о том, насколько модели эффективно применяют моральные принципы в своих решениях, и как они могут строить свои ответы в зависимости от культурных и этических контекстов. ## Метод Для эту статью была проведена комплексная эмпирическая оценка 14 лидирующих моделей Бо LLM, включая модели с признаками морального рассуждения и общего назначения. Эти модели были протестированы на 27 ситуациях, основанных на такой моральной проблемой, как "trolley problem", которые были формально поставлены в рамках 10 различных моральных философий, включая утилитаризм, деонтологию и альтруизм. Использовалась факторическая техника подсказки (prompting), чтобы вызвать 3780 бинарных решений, а также естественные языковые обоснования. Это стало возможным благодаря анализу решений по составленным этим моделям, включая уровень решательности, консистентность объяснений, соответствие общественному моральному стандарту и чувствительность к этически незначимым признакам. ## Результаты Результаты экспериментов показали значительную разницу в поведении моделей в зависимости от моральных фрэймворков и типов моделей. Заметились высокие степени решательности и структурированности в моделях с признаками морального рассуждения по сравнению с общей целевой моделью. Однако эти модели не всегда согласовывались с человеческим согласием в своих решениях. Были выявлены "sweet zones" в моральных фрэймворках, таких как альтруизм, справедливость и виртуозность, где модели показали сбалансированное решение с высоким уровнем вмешательства, низким конфликтом в объяснениях и минимальным отклонением от среднего человеческого суждения. Однако модели различались в своих решениях, когда речь шла о фрэймворках, таких как кровные связи, законность или индивидуальное интересование, что привело к этически спорным результатам. ## Значимость Эти полученные результаты имеют важное значение для сфер, где Бо LLM применяются в решениях этичес

Annotation:

As large language models (LLMs) increasingly mediate ethically sensitive decisions, understanding their moral reasoning processes becomes imperative. This study presents a comprehensive empirical evaluation of 14 leading LLMs, both reasoning enabled and general purpose, across 27 diverse trolley problem scenarios, framed by ten moral philosophies, including utilitarianism, deontology, and altruism. Using a factorial prompting protocol, we elicited 3,780 binary decisions and natural language just...

ID: 2508.07284v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways

2025-08-13

Авторы:

Cristian Cosentino, Annamaria Defilippo, Marco Dossena, Christopher Irwin, Sara Joubbi, Pietro Liò

#### Контекст В области искусственного интеллекта, специально развитые датасеты, посвященные медицинской Question-Answering (Q&A), играют ключевую роль в измерении и улучшении моделей ло LLM (Large Language Models). Одной из сложностей в этой области является возникновение задач, требующих многоэтапного интерпретационного моделирования, что требует высокой точности и надежности моделей. Наличие таких датасетов позволяет оценивать модели не только с точки зрения точности ответов, но и с точки зрения того, насколько интерпретируема и логично обоснована их работа. Проблема в том, что существующие датасеты часто не покрывают все аспекты клинического решательства, что делает их менее эффективными для тренировки моделей, предназначенных для работы в высокорисковых сферах, таких как медицина. #### Метод HealthBranches — это инновационный датасет, строительство которого основывается на методологии, основанной на клинических путях решения. Он создается через семиавтоматизированный процесс, который преобразует решательные пути, извлеченные из научных и клинических источников, в реалистичные сценарии, основанные на случаях пациентов. Этот процесс включает в себя выделение ключевых факторов, соединение их в логические цепи, а также формирование вопросов и ответов, которые точно отражают клинические ситуации. Датасет состоит из 4063 случаев из 17 различных медицинских областей, таких как кардиология, дерматология и оториноларингология. На каждый случай прикреплен решательный путь, который позволяет оценивать не только верность ответов, но и логику их построения. Эта структурированная архитектура датасета позволяет проводить многоэтапный анализ моделей ЛЛМ, включая их способность к многошаговой инференции и работе в контекстах Retrieval-Augmented Generation (RAG). #### Результаты В ходе экспериментов HealthBranches было протестировано на различных моделях ЛЛМ, включая модели с открытым исходным кодом и коммерческие модели со значительным числом параметров. Было проведено ряд экспериментов, включая задачи открытого ответа, множественного выбора и структурированного Retrieval-Augmented Generation. Результаты показали, что HealthBranches достигает высокой степени сложности, требуя от моделей не только верного ответа, но и подтверждения логики рассуждений. Особое внимание было уделено оценке точности интерпретации ответов, а также возможности моделей работать с цепочками клинического решательства. Это дало возможность провести сравнительный анализ, показав, что HealthBranches делает модели более интерпретируемыми и надежными в клиническом контексте. #### Значимость HealthBranches представляет собой революционный подход к созданию датасетов для

Annotation:

HealthBranches is a novel benchmark dataset for medical Question-Answering (Q&A), specifically designed to evaluate complex reasoning in Large Language Models (LLMs). This dataset is generated through a semi-automated pipeline that transforms explicit decision pathways from medical source into realistic patient cases with associated questions and answers. Covering 4,063 case studies across 17 healthcare topics, each data point is based on clinically validated reasoning chains. HealthBranches sup...

ID: 2508.07308v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

1
2
191
192
193
194
195
204
205

Показано 1921 - 1930 из 2042 записей