📚 Саммари научных статей из arXiv

Найдено 7549 результатов по запросу 'cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning

2025-08-13

Авторы:

Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali

#################### ## Контекст #################### Улучшение размерности и скорости вывода является ключевым заданием в машинном обучении, особенно при работе с текстовыми данными. Несмотря на улучшения, достигнутые большими моделями в области логического роста, эти модели требуют большого объема вычислительных ресурсов, особенно при оценке большого количества токенов. Это становится проблемой в случае коротких входных запросов, где вычислительные затраты на построение выходных последовательностей не пропорциональны входной информации. Более того, существующие спарсированные механизмы внимания, которые пытаются уменьшить эти затраты, часто подвержены ошибкам, которые накапливаются при длительном генерировании. Эти ошибки могут привести к ухудшению точности. Мы предлагаем LessIsMore, новый механизм спарсированного внимания, который работает без необходимости дополнительного обучения, используя глобальные взаимосвязи вместо локальных оптимизаций. Это позволяет повысить эффективность и обеспечить лучшую универсальность. #################### ## Метод #################### Мы предлагаем LessIsMore, многоголосийский механизм спарсированного внимания, который агрегирует выбор токенов из локальных заголовков вместе с реконтекстуализацией на основе контекста. Метод работает следующим образом: выбранные токены из каждого локального заголовка объединяются и преобразуются в общую оценку всех токенов во всех заголовках. Это позволяет уменьшить количество токенов, которые необходимо обрабатывать при декодировании, при этом сохраняя точность. Механизм LessIsMore не требует дополнительного обучения и может применяться как к существующим моделям, так и к новым. Этот подход уменьшает требования к вычислительным ресурсам и повышает производительность, сохраняя высокую точность. #################### ## Результаты #################### Мы использовали LessIsMore в различных моделях логического роста и выполнили эксперименты на различных бенчмарках. Наши результаты показывают, что LessIsMore повышает эффективность, снижая число обрабатываемых токенов на $2\times$ по сравнению с существующими методами, при этом сохраняя высокую точность. Он позволяет снизить затраты на вычисления на $1.1\times$ в сравнении с полным вниманием и $1.13\times$ по сравнению с другими спарсированными методами. Это демонстрирует, что LessIsMore может эффективно уменьшить затраты на вычисления при оценке данных, не теряя точности. #################### ## Значимость #################### LessIsMore может быть применен в различных областях, где требуется высокая производительность и эффективность при обработке текстовых данных. Это может быть полезно в ситуациях, когда требуется высокая скорость вывода, таких как в реальном времени генер

Annotation:

Large reasoning models achieve strong performance through test-time scaling but incur substantial computational overhead, particularly from excessive token generation when processing short input prompts. While sparse attention mechanisms can reduce latency and memory usage, existing approaches suffer from significant accuracy degradation due to accumulated errors during long-generation reasoning. These methods generally require either high token retention rates or expensive retraining. We introd...

ID: 2508.07101v1 cs.CL, cs.AI

arXiv PDF

📄 Investigating Intersectional Bias in Large Language Models using Confidence Disparities in Coreference Resolution

2025-08-13

Авторы:

Falaah Arif Khan, Nivedha Sivakumar, Yinong Oliver Wang, Katherine Metcalf, Cezanne Camacho, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff

## Контекст Large language models (LLMs) — мощные языковые модели, обладающие высоким уровнем производительности и широко распространенными в сфере решения задач решения, включая сферу принятия решений в таких областях, как трудоустройство и вступительные экзамены. Однако их влияние не ограничивается положительными аспектами. Научно принято, что AI системы могут отражать и усиливать социальные биасы, что вызывает опасения в отношении потенциального вреда от использования таких систем в критически важных социальных сферах. До этого уже было проведено многочисленное исследование, показавшее, что модели LLM могут склоняться к демографическим дискриминациям в различных языковых задачах. Мы расширяем этот подход, проводя оценку биаса в терминах интерсекционального подхода, который учитывает взаимодействие различных факторов дискриминации. ## Метод Мы разработали новый бенчмарк под названием **WinoIdentity**, который является усовершенствованием WinoBias датасета, добавив 25 новых демографических маркеров (таких как возраст, национальность, расовые признаки), которые взаимодействуют с гендером. Это способствовало созданию 245 700 запросов для оценки 50 различных шаблонов биаса. Мы сосредоточились на потенциальных характеристиках, связанных с упущениями в результатах в ситуациях подреpresentation (безделющей дискриминации). В качестве новой метрики мы предложили **Coreference Confidence Disparity**, которая измеряет разницу в уверенности модели LLM в зависимости от интерсекциональных характеристик. Мы провели эксперименты с 5 недавно опубликованными LLMs. ## Результаты Наши эксперименты показали, что потенциально вызволяющие биасы могут достигать до 40% в зависимости от таких атрибутов, как телосложение, половая ориентация и социально-экономический статус. Мы обнаружили, что LLMs чаще были неуверенными в предположениях в anti-stereotypical ситуациях, а также уменьшалась уверенность даже в отношении гегемонических маркеров. Это указывает на то, что некоторые текущие успехи моделей LLM могут быть связаны с запоминанием, а не с логическим рассуждением. Это две независимые ошибки, связанные с значением и достоверностью, могут существенно повлиять на социальные злоупотребления. ## Значимость Наша работа открывает путь к пониманию интерсекциональных биасов в LLMs и их последствиях в критически важных социальных сферах. Мы видим применение наших результатов в сфере трудоустройства, образования и финансовых услуг. Эти результаты могут помочь внедрить более справедливые и точные модели в реальном мире и снизить риски социального вреда. ## Выводы Мы указали на

Annotation:

Large language models (LLMs) have achieved impressive performance, leading to their widespread adoption as decision-support tools in resource-constrained contexts like hiring and admissions. There is, however, scientific consensus that AI systems can reflect and exacerbate societal biases, raising concerns about identity-based harm when used in critical social contexts. Prior work has laid a solid foundation for assessing bias in LLMs by evaluating demographic disparities in different language r...

ID: 2508.07111v1 cs.CL, cs.AI

arXiv PDF

📄 Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens

2025-08-13

Авторы:

Anna Seo Gyeong Choi, Hoon Choi

## Контекст Automatic Speech Recognition (ASR) — это технология, которая позволяет компьютерам переводить речь на текст. Она используется во многих областях, от смартфонов до систем оперативной поддержки. Однако недостаточно внимания уделяется проблеме справедливости в ASR. Несправедливость в ASR может возникать, когда система плохо распознает речь отдельных групп людей, например, носителей нестандартных диалектов. Это может привести к недостатку доверия к технологиям и даже к дискриминации. Авторы статьи предлагают рассмотреть эту проблему с позиции философии, чтобы понять, как ASR может укреплять существующие исторические несправедливости. ## Метод Авторы используют философский анализ, чтобы изучить проблему справедливости в ASR. Они различают два типа дискриминации: нейтральную классификацию (discriminate1) и вредную дискриминацию (discriminate2). Дискриминация в ASR относится к вредному типу, когда система постоянно неверно распознает речь нестандартных диалектов. Также они идентифицируют три этических аспекта, влияющих на справедливость ASR: 1. **Темпоральная нагрузка** (temporal taxation) — это нагрузка, которая предлагается носителям нестандартных диалектов, когда они должны постоянно повторяться или исправлять распознанный текст. 2. **Разрыв в диалогах** (conversational disruption) — когда ASR неправильно распознает речь, это может нарушить диалог и вызвать неудобство. 3. **Подкрепление идентичности** (identity reinforcement) — речь является сильным идентификатором личности и культуры, поэтому неправильное распознание может привести к чувству неуважения. ## Результаты Авторы проанализировали существующие ASR-системы и показали, как они могут поддерживать и усиливать существующие неравенства в языковых стандартах. Например, системы часто лучше работают с английским, но стараются распознать речь отдельных сообществ, например, афроамериканских диалектов. Это приводит к темпоральной нагрузке и неприятным ощущениям для носителей таких диалектов. Также было проанализировано, как ASR может повлиять на конфликты в диалогах и нарушить поток разговора. ## Значимость Эта работа имеет значимость в следующих областях: 1. **Технологии распознавания речи** — показано, как справедливость ASR может повлиять на пользователей и повысить доверие к технологиям. 2. **Социальная справедливость** — теоретические выводы могут помочь избежать дискриминации в технологиях и создать более социально честные системы. 3. **Культурная политика** — это подход может помочь учитывать разнообразие языков и культур в разработке технологий. ## Выводы А

Annotation:

Automatic Speech Recognition (ASR) systems now mediate countless human-technology interactions, yet research on their fairness implications remains surprisingly limited. This paper examines ASR bias through a philosophical lens, arguing that systematic misrecognition of certain speech varieties constitutes more than a technical limitation -- it represents a form of disrespect that compounds historical injustices against marginalized linguistic communities. We distinguish between morally neutral ...

ID: 2508.07143v1 cs.CL, cs.AI

arXiv PDF

📄 Improved Personalized Headline Generation via Denoising Fake Interests from Implicit Feedback

2025-08-13

Авторы:

Kejin Liu, Junhong Lian, Xiang Ao, Ningtao Wang, Xing Fu, Yu Cheng, Weiqiang Wang, Xinyu Liu

#### Контекст Подробное описание области исследования, существующих проблем и мотивации ==================================================================== Создание точных персонализированных новостных заголовков является ключевым заданием в сфере рекомендательных систем. Это позволяет улучшить пользовательское вовлечение, увеличить удовлетворение и, в итоге, повысить производительность системы. Основной проблемой в данной области является то, что существующие методы часто не учитывают "шумные" поведенческие данные, которые могут искажать профиль пользователя. Эти "шумные" данные возникают из-за неисключительного интереса пользователя к конкретным новостным материалам, что приводит к неточной характеристике его интересов. Эти ошибки могут привести к генерированию неточных или несоответствующих заголовков, что снижает качество рекомендаций и пользовательский опыт. #### Метод Детальное описание методологии, технических решений и архитектуры ================================================================= Предлагаемый подход, названный **Personalized Headline Generation via Denoising Fake Interests from Implicit Feedback (PHG-DIF)**, включает несколько ключевых шагов. Во-первых, **двойной фильтр** удаляет "шумные" данные из исторических кликов, определяя их по коротким продолжительностям просмотра и аномальным кликам. Во-вторых, **мультиуровневая временная фузирование** позволяет динамически профилировать многомерные интересы пользователя, учитывая их эволюцию во времени. Это позволяет создавать более точные и актуальные новостные заголовки. Фреймворк PHG-DIF также включает в себя архитектуру, основанную на **transformer-based models**, которая обеспечивает эффективное профилирование пользователей и новостных событий. #### Результаты Описание экспериментов, используемых данных и полученных результатов ==================================================================== Чтобы проверить эффективность PHG-DIF, авторы провели эксперименты на новой б BENCHMARK-датесете **DT-PENS**, который содержит данные о кликах 1000 пользователей и почти 10000 аннотированных новостных заголовков. Результаты показали, что PHG-DIF значительно улучшает качество новостных заголовков, повышая как прирост кликов, так и степень точности рекомендаций по сравнению с современными методами. Эти результаты подтверждают, что PHG-DIF способен эффективно удалять "шумные" данные и динамически профилировать интересы пользователей, что приводит к более точным и персонализированным рекомендациям. #### Значимость Области применения, преимущества и потенциальное влияние ======================================================== Предложенный подход может быть применен в различных сферах, включая новостные системы рекомендаций, социальные сети и персонализированные рекламные системы. Он предлагает несколько преимуществ, включая улучшенное качество рекомендаций

Annotation:

Accurate personalized headline generation hinges on precisely capturing user interests from historical behaviors. However, existing methods neglect personalized-irrelevant click noise in entire historical clickstreams, which may lead to hallucinated headlines that deviate from genuine user preferences. In this paper, we reveal the detrimental impact of click noise on personalized generation quality through rigorous analysis in both user and news dimensions. Based on these insights, we propose a ...

ID: 2508.07178v1 cs.CL, cs.AI

arXiv PDF

📄 Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks

2025-08-13

Авторы:

Jiaqi Yin, Yi-Wei Chen, Meng-Lung Lee, Xiya Liu

## Контекст В современных предприятиях развитие enterprise data pipelines становится все более сложным в связи с использованием множества языков программирования, сложных преобразований данных и многоязычностью. Эти факторы приводят к "семантическому расхождению" (semantic drift) между оригинальными метаданными и окончательными данными, что снижает эффективность таких систем, как Retrieval-Augmented Generation (RAG) и Text-to-SQL. Без точного понимания структуры и преобразований в пайплайнах, предприятия сталкиваются с трудностями в управлении данными, гарантировании их реплицируемости и соблюдении нормативных требований. Наша мотивация заключается в разработке автоматизированных методов для извлечения информации о схеме (schema lineage) из мультиязычных пайплайнов, что позволит устранить эту проблему и обеспечить более точное управление данными. ## Метод Мы предлагаем многоязычный фреймворк для извлечения детальной схемы линейки (schema lineage) из скриптов пайплайнов. Методология основывается на четырёх основных компонентах: source schemas (исходные схемы), source tables (исходные таблицы), transformation logic (логика преобразований) и aggregation operations (агрегационные операции). Метод определяет структурные и семантические аспекты каждого компонента, превращая их в стандартизированный вид, который достаточно точен для анализа и управления. Также мы представляем новую метрику Schema Lineage Composite Evaluation (SLiCE) для оценки качества извлечённых данных с целью проверки их структурной и семантической точности. ## Результаты Мы провели эксперименты с использованием 1,700 manuаlly аnnotated lineages из реальных промышленных скриптов. Наши тесты отражают как структурную точность, так и семантическую фаильность. Мы разбили эксперименты на 12 языковых моделей, начиная от small language models (SLMs) с 1.3B параметров до large language models (LLMs), таких как GPT-4o и GPT-4.1. Результаты показывают, что более крупные модели с большим количеством параметров показывают лучшие результаты, особенно в смешанных условиях с различным размером данных и сложностью задач. Особенно заметны преимущества 32B open-source model, который, используя один резолюционный трасс, может достичь результатов, сравнимых с GPT-series, при использовании стандартных методов подсказок (prompting techniques). ## Значимость Наше решение открывает широкие возможности для применения в сферах, таких как Retrieval-Augmented Generation (RAG), Text-to-SQL, и другие системы, требующие точного понимания данных. Оно обеспечивает улучшенную транспарентность пайплайнов, повышает эффективность гуманных ресурсов, значительно уменьшая время, потраченное на поиск и устранение ошибок. Это также может сыграть ключевую роль в обес

Annotation:

Enterprise data pipelines, characterized by complex transformations across multiple programming languages, often cause a semantic disconnect between original metadata and downstream data. This "semantic drift" compromises data reproducibility and governance, and impairs the utility of services like retrieval-augmented generation (RAG) and text-to-SQL systems. To address this, a novel framework is proposed for the automated extraction of fine-grained schema lineage from multilingual enterprise pi...

ID: 2508.07179v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 DySK-Attn: A Framework for Efficient, Real-Time Knowledge Updating in Large Language Models via Dynamic Sparse Knowledge Attention

2025-08-13

Авторы:

Kabir Khan, Priya Sharma, Arjun Mehta, Neha Gupta, Ravi Narayanan

################################# ## Контекст ################################# Large Language Models (LLMs) — это мощные инструменты для обработки текстов, но они имеют существенную проблему: их знания являются статичными и быстро устаревают. Например, при обновлении статистических данных или изменении событий в мире, LLMs не могут адаптироваться без дорогостоящей и время-затратной процедуры переучивания. Такие процессы требуют огромных вычислительных ресурсов и могут привести к задержкам в развертывании обновленных моделей. Кроме того, традиционные методы редактирования знаний могут привести к нежелательным побочным эффектам, таким как неточность или удаление ценной информации. Данная статья рассматривает эту проблему и предлагает фреймворк DySK-Attn, который позволяет LLMs эффективно обновлять свои знания в реальном времени. Основной идеей является использование динамического знаний сграфа (Knowledge Graph, KG), который может быть мгновенно обновлен без необходимости переучивания модели. ################################# ## Метод ################################# Фреймворк DySK-Attn основывается на синергии между LLM и динамическим KG. Главная инновация заключается в использовании динамической спарсед-аттенции (Sparse Knowledge Attention), которая исключает ненужную информацию за счёт выбора только наиболее связанных фактов с запросом. В свою очередь, спарсед-аттенция работает примерно следующим образом: сначала выполняется поиск по базе знаний с использованием ключевых слов запроса. Затем, на основе полученных результатов, выбирается наиболее подходящий набор фактов, который после этого передаётся LLM для генерации ответа. Эта стратегия позволяет избежать вычислительной сложности десятичной аттенции к большой базе знаний, увеличивая вместо этого эффективность и точность полученных ответов. Также, DySK-Attn включает гибкие механизмы для обновления KG без перестройки модели от начала до конца. Это достигается за счёт интеграции специальных модулей обновления, которые могут быть применены непосредственно во время работы модели. ################################# ## Результаты ################################# Для оценки эффективности DySK-Attn проведено рядовое экспериментальное исследование на задачах время-зависимого реагирования (time-sensitive question-answering). Использовались три типа датасетов: 1. **Новости**: для тестирования модели в области новостных событий. 2. **Политические события**: для проверки точности в терминах политических данных. 3. **Нефтегазовые рынки**: для проверки работы модели в области финансовых данных. В результате, DySK-Attn показала значительный выигрыш в точности ответов и вычислительной эффективности по сравнению с традиционными RAG-моделями и техниками моделирования. Например, в задаче обновления дан

Annotation:

Large Language Models (LLMs) suffer from a critical limitation: their knowledge is static and quickly becomes outdated. Retraining these massive models is computationally prohibitive, while existing knowledge editing techniques can be slow and may introduce unforeseen side effects. To address this, we propose DySK-Attn, a novel framework that enables LLMs to efficiently integrate real-time knowledge from a dynamic external source. Our approach synergizes an LLM with a dynamic Knowledge Graph (KG...

ID: 2508.07185v1 cs.CL, cs.AI, cs.LG, I.2.7; H.3.3; H.2.8

arXiv PDF

📄 Adapting LLMs to Time Series Forecasting via Temporal Heterogeneity Modeling and Semantic Alignment

2025-08-13

Авторы:

Yanru Sun, Emadeldeen Eldele, Zongxia Xie, Yucheng Wang, Wenzhe Niu, Qinghua Hu, Chee Keong Kwoh, Min Wu

## Контекст Временные ряды широко используются в различных областях, включая экономику, финансы, медицину и промышленность. Их анализ и прогнозирование являются ключевыми задачами, требующими точности и надежности. Несмотря на успехы в области прогнозирования временных рядов, существуют значительные проблемы. Одной из них является **информационная несовместимость** между временными рядами, представленными в виде непрерывных числовых сигналов, и текстовыми данными, обрабатываемыми LLMs. Другая проблема — **хаотичность природы временных рядов**, которая приводит к различным структурам и характеристикам в разных сегментах. Эти проблемы существенно ограничивают эффективность использования LLMs для прогнозирования временных рядов. Мотивацией для данного исследования является развитие методов, позволяющих LLMs конкретизировать свои сильные стороны, такие как мощь общеробычного моделирования и синтаксических возможностей, для проблемы временных рядов. Такие методы могут позволить повысить точность прогнозов и улучшить общую эффективность систем прогнозирования. ## Метод Мы предлагаем **TALON** — рамберство, которое улучшает моделирование временных рядов с помощью ЛСМ (Large Sequence Models), решая проблемы **информационной несовместимости** и **хаотичности временных рядов**. - **Heterogeneous Temporal Encoder (HTE)**: Этот компонент разбивает временные ряды на структурно связанные сегменты, позволяя **локализованному экспертному моделированию** в разных частях ряда. Это позволяет ЛСМ более точно адаптироваться к разным характеристикам временных рядов. - **Semantic Alignment Module (SAM)**: Модуль выравнивания семантических представлений устраняет проблему модальности, активно участвуя в преобразовании временных рядов в **LLM-совместимые представления**, не требуя ручных промптов во время прогнозирования. ## Результаты Используя 7 реальных наборов данных для прогнозирования временных рядов, мы провели эксперименты с TALON и сравнили результаты с текущими лидерами в области. Наши результаты показали, что TALON обеспечивает **улучшение MSE до 11%** по сравнению с современными методами. Это свидетельствует о том, что интеграция **локальной детализации** (через HTE) и **семантического выравнивания** (через SAM) действительно эффективна. Также мы провели анализ того, каким образом **SAM** позволяет устранить проблему модальности, а **HTE** повышает точность прогнозов, особенно в условиях сильных изменений временных рядов. ## Значимость Результаты TALON демонстрируют, что он может быть применен в различных областях, таких как финансы, экономика, фарма

Annotation:

Large Language Models (LLMs) have recently demonstrated impressive capabilities in natural language processing due to their strong generalization and sequence modeling capabilities. However, their direct application to time series forecasting remains challenging due to two fundamental issues: the inherent heterogeneity of temporal patterns and the modality gap between continuous numerical signals and discrete language representations. In this work, we propose TALON, a unified framework that enha...

ID: 2508.07195v1 cs.CL, cs.AI

arXiv PDF

📄 Propagation Tree Is Not Deep: Adaptive Graph Contrastive Learning Approach for Rumor Detection

2025-08-13

Авторы:

Chaoqun Cui, Caiyan Jia

## Контекст Современные социальные сети являются важной источником информации, но при этом являются местом распространения слухов и неточной информации. Детекция слухов (rumor detection) является важной задачей для обеспечения надежности информации и защиты общества от вредоносных влияний. Несмотря на то, что существуют ряд моделей, основанных на графах, для решения этой задачи, они часто исходят из предположения, что деревья распространения лжи (rumor propagation trees, RPTs) имеют глубокие структуры. Однако статистический анализ данных реальных социальных сетей показывает, что большинство узлов RPT имеют очень глубины 1 или 2, что отличается от предположений этих моделей. Эта несоответствие моделей к реальным данным создает мотивацию для развития более эффективных подходов к обучению. ## Метод Мы предлагаем метод Rumor Adaptive Graph Contrastive Learning (RAGCL), который адаптивно увеличивает подграфы с помощью сгенерированных видов (views), опираясь на центральность узлов. Этот подход нацелен на то, чтобы сосредоточить обучение на ключевых подграфах, характеризующихся более высокой структурной интенсивностью. Мы определили три принципа для адаптивного увеличения подграфов: 1. Исключение корневых узлов из аугментации. 2. Удержание узлов с глубиной 1 или выше. 3. Отбор узлов из глубин, где их порядок не слишком сильно отличается от корня. Для генерирования видов мы применяем методы случайного удаления узлов, маскирования атрибутов и удаления ребер, при этом веса удаления определяются прототипов центральности. Это позволяет создавать разные виды для обучения модели, что улучшает ее устойчивость и точность. ## Результаты Мы проводили эксперименты на четырьмя бенчмарковыми наборами данных, которые широко используются для задачи детекции слухов. Модель RAGCL демонстрирует превосходство по метрикам F1-score и AUC в сравнении с текущими лидерами, такими как GCN, GAT и GraphSAGE. Эти результаты подтверждают то, что RAGCL эффективно учитывает широкую структуру RPTs и устойчив к изменениям в структуре данных. ## Значимость Результаты RAGCL имеют значительное влияние на область детекции слухов в социальных сетях. Они позволяют улучшить точность и стабильность моделей, опираясь на более точное понимание структуры данных. Более того, адаптивные техники аугментации, предложенные в рамках этой модели, могут быть применены в других задачах, включая обработку данных с деревовой структурой, например, в моделях для логического семантического понимания текста или биоинформатики. ## Выводы В результате нашего исследования мы показали, что RPTs в реальных дан

Annotation:

Rumor detection on social media has become increasingly important. Most existing graph-based models presume rumor propagation trees (RPTs) have deep structures and learn sequential stance features along branches. However, through statistical analysis on real-world datasets, we find RPTs exhibit wide structures, with most nodes being shallow 1-level replies. To focus learning on intensive substructures, we propose Rumor Adaptive Graph Contrastive Learning (RAGCL) method with adaptive view augment...

ID: 2508.07201v1 cs.SI, cs.AI, cs.CL

arXiv PDF

📄 Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models

2025-08-13

Авторы:

Qiongqiong Wang, Hardik B. Sailor, Jeremy H. M. Wong, Tianchi Liu, Shuo Sun, Wenyu Zhang, Muhammad Huzaifah, Nancy Chen, Ai Ti Aw

## Контекст В последние годы появились большие модели языка, которые обладают высокой точностью в обработке текстовых данных. Однако в сфере распознавания речи эти модели часто сталкиваются с проблемами, связанными с недостаточным пониманием контекста и паралюнгвистических признаков, таких как эмоциональные оттенки или тональность. Это ограничивает их применение в сценариях, требующих эмоционального рассуждения, таких как взаимодействия с клиентами или помощь людям с ограниченными функциями языка. Необходимо развить методы, которые позволят моделям лучше понимать и реагировать на эти паралюнгвистические сигналы, улучшая их эмоциональную интеллектуальность. ## Метод Мы предлагаем два подхода для включения контекста и паралюнгвистических признаков в обучение больших моделей речевого понимания. **Первый подход** — это прямое использование паралюнгвистической метаинформации, такой как аннотации эмоций, напрямую в процессе обучения модели. **Второй подход** — это автоматическое генерирование вопросов-ответов (QA-пар) на основе категориальных и димиенциональных аннотаций эмоций, а также речевых транскрипций. Этот подход позволяет модели не только получить информацию о контексте, но и сформировать самостоятельные мысли об эмоции, улучшая ее углубленное понимание. ## Результаты Мы провели эксперименты с применением двух подходов на корпусе QA-пар с человеческими аннотациями эмоций. Эксперименты показали, что **автоматическое генерирование QA-пар повышает точность модели на 38.41% в сравнении с базовой версией LLM**. Когда оба подхода (explicit и implicit) объединяются, результаты улучшаются до **46.02%**, что демонстрирует эффективность комбинированного подхода. Также мы проверили надежность LLM-judge, обнаружив высокую корреляцию с классическими методами оценки качества моделей. ## Значимость Наши результаты доказывают, что модели с поддержкой контекста и паралюнгвистических признаков могут значительно улучшиться в задачах, требующих эмоционального рассуждения. Это открывает широкие перспективы для использования в сферах, таких как клиентская служба, медицинское обслуживание и социальная поддержка. Преимущества нашего подхода также заключаются в том, что он может быть интегрирован в уже существующие модели без внесения значительных изменений в архитектуру и обучение. Это делает его привлекательным для практического применения. ## Выводы Мы успешно продемонстрировали, что интеграция контекста и паралюнгвистических признаков в модели речи-языка может значительно улучшить их эмоциональное понимание. Нашей

Annotation:

Current large speech language models (Speech-LLMs) often exhibit limitations in empathetic reasoning, primarily due to the absence of training datasets that integrate both contextual content and paralinguistic cues. In this work, we propose two approaches to incorporate contextual paralinguistic information into model training: (1) an explicit method that provides paralinguistic metadata (e.g., emotion annotations) directly to the LLM, and (2) an implicit method that automatically generates nove...

ID: 2508.07273v1 cs.CL, cs.AI, eess.AS

arXiv PDF

📄 MAQuA: Adaptive Question-Asking for Multidimensional Mental Health Screening using Item Response Theory

2025-08-13

Авторы:

Vasudha Varadarajan, Hui Xu, Rebecca Astrid Boehme, Mariam Marlan Mirstrom, Sverker Sikstrom, H. Andrew Schwartz

#################### ## Контекст #################### В последние годы повышается внимание к оценке и мониторингу ментального здоровья в реальном времени, особенно в условиях увеличения спроса на психологические услуги. Однако традиционные методы оценки не всегда эффективны, так как требуют много времени или не обеспечивают точности в диагностике многообразных трансдиагностических симптомных профилей. Большие языковые модели (LLM) обещают решать эти проблемы, предлагая интерактивные и скалярные способы оценки. Однако использование LLM в сфере оценки ментального здоровья также имеет свои недостатки: постоянное задавание вопросов может напрячь пользователя и оказаться неэффективным. Необходимо разработать метод, который бы уменьшил количество запросов, сохранив точность диагностики. #################### ## Метод #################### Мы предлагаем MAQuA (Adaptive Question-Asking), новую адаптивную систему для вопрошения, основанную на теории ответа на запросы (IRT) и анализе факторов. Этот подход оптимизирует порядок вопросов, учитывая необходимость максимального получения информации для оценки множества ментальных здоровья показателей одновременно. Обучение системы происходит на основе многорезультатного моделирования языковых ответов и анализа факторов с помощью IRT. Машинное обучение использует сложные модели, чтобы выбирать вопросы, которые приведут к наиболее информативным ответам на текущем шаге. Это позволяет снизить бесполезные запросы и увеличить точность диагнозирования. #################### ## Результаты #################### Мы провестили эксперименты на новой коллекции данных, охватывающей разные аспекты ментального здоровья. Результаты показали, что MAQuA уменьшает количество запросов, необходимых для достижения стабильности результатов, на 50-87% в сравнении с системами, использующими случайный порядок вопросов. Например, используя MAQuA, можно достичь стабильных результатов в диагностике депрессии с 71% меньшим количеством вопросов. Еще MAQuA демонстрирует робастные результаты в диагностике обоих типов симптомов: внутренних (депрессия, тревожность) и внешних (наркотическое зависимость, приступы еды). Благодаря стратегиям раннего остановки, MAQuA также уменьшает время, необходимое пользователю для прохождения оценки. #################### ## Значимость #################### MAQuA может быть применен в различных сферах, включая клиническую практику, образовательные учреждения и индивидуальные исследования. Он предоставляет следующие преимущества: повышение точности диагноза, уменьшение времени и усилий, необходимых для оценки, и улучшение пользовательского опыта. Этот подход открыва

Annotation:

Recent advances in large language models (LLMs) offer new opportunities for scalable, interactive mental health assessment, but excessive querying by LLMs burdens users and is inefficient for real-world screening across transdiagnostic symptom profiles. We introduce MAQuA, an adaptive question-asking framework for simultaneous, multidimensional mental health screening. Combining multi-outcome modeling on language responses with item response theory (IRT) and factor analysis, MAQuA selects the qu...

ID: 2508.07279v1 cs.CL, cs.AI

arXiv PDF

1
2
714
715
716
717
718
754
755

Показано 7151 - 7160 из 7549 записей