📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 What Do Humans Hear When Interacting? Experiments on Selective Listening for Evaluating ASR of Spoken Dialogue Systems

2025-08-09

Авторы:

Kiyotada Mori, Seiya Kawano, Chaoran Liu, Carlos Toshinori Ishi, Angel Fernando Garcia Contreras, Koichiro Yoshino

Современные разговорные системы (SDS) используют ASR для распознавания пользовательского говорения и формирования ответов. Однако ASR часто сталкивается с проблемами восприятия пользовательских речи в сложных диалогах. Эта проблема основана на разнице между значимыми и незначимыми частями речи, которая ключева для адекватного понимания и реакции. В данном исследовании экспериментально подтверждено, что люди при формировании ответов диалога ориентируются на значимые части речи, что позволяет идентифицировать важные аспекты для ASR. Основываясь на этих результатах, авторы предлагают новую методологию оценки ASR, которая будет строиться на основе знаний о человеческом способе слушания значимых частей речи. Такой подход может эффективно уточнить характерные недостатки ASR во взаимодействии с SDS.

Annotation:

Spoken dialogue systems (SDSs) utilize automatic speech recognition (ASR) at the front end of their pipeline. The role of ASR in SDSs is to recognize information in user speech related to response generation appropriately. Examining selective listening of humans, which refers to the ability to focus on and listen to important parts of a conversation during the speech, will enable us to identify the ASR capabilities required for SDSs and evaluate them. In this study, we experimentally confirmed s...

ID: 2508.04402v1 cs.CL

arXiv PDF

📄 Dialogue Response Prefetching Based on Semantic Similarity and Prediction Confidence of Language Model

2025-08-09

Авторы:

Kiyotada Mori, Seiya Kawano, Angel Fernando Garcia Contreras, Koichiro Yoshino

Быстрота реакции систем с голосовым вводом определяется не только производительностью, но и правильностью предсказания пользовательских запросов. Одной из проблем в данной области является **User-Perceived Latency (UPL)** — время, проходящее от момента отправки запроса пользователем до получения ответа. Решить эту проблему можно предварительной загрузкой (prefetching) ответов, но для этого необходимо точно предсказать пользовательский запрос еще до его полного возникновения. В статье предлагается **Prediction Confidence Model (PCM)**, который определяет возможность сделать предположение о пользовательском запросе на основе семантической схожести предложенного предположения и целевого запроса. PCM использует модель языка для вычисления уровня уверенности в том, что предсказанное предложение соответствует услышанному. Эксперименты показали, что **PCM** улучшает точность предсказаний и позволяет снизить UPL без ухудшения качества ответа.

Annotation:

Prefetching of dialogue responses has been investigated to reduce user-perceived latency (UPL), which refers to the user's waiting time before receiving the system's response, in spoken dialogue systems. To reduce the UPL, it is necessary to predict complete user utterances before the end of the user's speech, typically by language models, to prepare prefetched dialogue responses. In this study, we proposed a prediction confidence model (PCM) that determines whether prefetching is possible or no...

ID: 2508.04403v1 cs.CL

arXiv PDF

📄 Evaluating, Synthesizing, and Enhancing for Customer Support Conversation

2025-08-09

Авторы:

Jie Zhu, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang, Fang Kong

**Резюме** В статье предлагается задача Customer Support Conversation (CSC), сосредоточенная на обучении службы поддержки клиентов применять стратегически обоснованные подходы в общении. Основанной на COPC-рекомендациях, структурированная модель CSC определяет пять этапов и двенадцать стратегий для создания высококачественных интеракций. Для оценки данной модели разработан датасет CSConv, включающий 1855 переписанных гуманными специалистами диалогов клиентов и агентами, аннотированных стратегиями. Также разработана методика RoleCS, симулирующая стратегически богатые диалоги с помощью партнеров, порождаемых с помощью LLMs. Исследования показали, что тренировка LLMs на RoleCS существенно повышает эффективность генерации стратегически организованных ответов в CSConv. Эксперименты с людьми также подтвердили улучшение решения проблем. Эти разработки могут облегчить обучение и оценку систем поддержки клиентов.

Annotation:

Effective customer support requires not only accurate problem solving but also structured and empathetic communication aligned with professional standards. However, existing dialogue datasets often lack strategic guidance, and real-world service data is difficult to access and annotate. To address this, we introduce the task of Customer Support Conversation (CSC), aimed at training customer service agents to respond using well-defined support strategies. We propose a structured CSC framework gro...

ID: 2508.04423v1 cs.CL

arXiv PDF

📄 CALE : Concept-Aligned Embeddings for Both Within-Lemma and Inter-Lemma Sense Differentiation

2025-08-09

Авторы:

Bastien Liétard, Gabriel Loiseau

Научная статья "CALE: Concept-Aligned Embeddings for Both Within-Lemma and Inter-Lemma Sense Differentiation" рассматривает проблему недостаточной лаконичности существующих контекстно-зависимых моделей представления языка при описании семантических отношений между словами. Авторы предлагают расширение задачи Word-in-Context, включив в нее сравнение смыслов разных слов (Concept Differentiation). Для этого они создали датасет на основе SemCor и оптимизировали несколько языковых моделей с помощью этого датасета, называя полученные модели Concept-Aligned Embeddings (CALE). Выполненные эксперименты показали, что CALE эффективно решает задачи мульти-представления лексического смысла, показывая лучшие результаты в нескольких лексических задачах. Также отмечается, что CALE меняет пространственную организацию эмбеддингов, что повышает их точность и достоверность.

Annotation:

Lexical semantics is concerned with both the multiple senses a word can adopt in different contexts, and the semantic relations that exist between meanings of different words. To investigate them, Contextualized Language Models are a valuable tool that provides context-sensitive representations that can be used to investigate lexical meaning. Recent works like XL-LEXEME have leveraged the task of Word-in-Context to fine-tune them to get more semantically accurate representations, but Word-in-Con...

ID: 2508.04494v1 cs.CL

arXiv PDF

📄 Balancing Stylization and Truth via Disentangled Representation Steering

2025-08-09

Авторы:

Chenglei Shen, Zhongxiang Sun, Teng Shi, Xiao Zhang, Jun Xu

Научная статья **"Balancing Stylization and Truth via Disentangled Representation Steering"** рассматривает проблему того, что стилизация выводов бо LLM часто приводит к снижению их точности. Традиционные методы редактирования представлений, незаметно вливая стилистические признаки, портят логическую корректность ответов. Авторы определяют этот эффект как "stylization-induced truthfulness collapse", связанный с корреляцией в запасном пространстве внимания. Решением является механизм **StyliTruth**, позволяющий разделить стильные и логические направления в представлении модели, используя ортогональное отбрасывание подпространств. Этот подход обеспечивает независимое управление стилем и точностью, уменьшая влияние одного на другой. Адаптивные векторы направления, работающие на уровне токенов, позволяют динамически регулировать процесс генерации. Исследования показали, что **StyliTruth** эффективно повышает точность, сохраняя стиль, и превосходит предыдущие методы в балансировке этих двух характеристик.

Annotation:

Generating stylized large language model (LLM) responses via representation editing is a promising way for fine-grained output control. However, there exists an inherent trade-off: imposing a distinctive style often degrades truthfulness. Existing representation editing methods, by naively injecting style signals, overlook this collateral impact and frequently contaminate the model's core truthfulness representations, resulting in reduced answer correctness. We term this phenomenon stylization-i...

ID: 2508.04530v2 cs.CL

arXiv PDF

📄 Lightweight Transformers for Zero-Shot and Fine-Tuned Text-to-SQL Generation Using Spider

2025-08-09

Авторы:

Chirag Seth, Utkarsh Singh

**Резюме** Тексто-к SQL перевод позволяет неэкспертным пользователям выполнять запросы к реляционным базам данных с использованием естественного языка, что находит применение в образовании и бизнес-интеллекту. В данном исследовании анализируются три лёгких трансформерных модели — T5-Small, BART-Small и GPT-2 — на Spider датасете, сфокусированном на сценарии с ограниченными ресурсами. Разработанная авторами модельно-независимая конвейерная модель адаптирует схемы к особенностям каждой модели. Модели были обучены в течение 1000–5000 эпох, оцениваясь по метрикам Logical Form Accuracy (LFAcc), BLEU и Exact Match (EM). Легкая T5-Small показала наилучший результат LFAcc (27.8%), превосходя BART-Small (23.98%) и GPT-2 (20.1%). Это подтверждает преимущество encoder-decoder моделей в схемосознающей генерации SQL. Несмотря на ресурсные ограничения, модульность pipeline позволяет добавить расширенные схемоподключения и рассматривать другие модели. Результаты показывают, что легкие трансформеры могут делать text-to-SQL доступным в условиях ограниченных ресурсов.

Annotation:

Text-to-SQL translation enables non-expert users to query relational databases using natural language, with applications in education and business intelligence. This study evaluates three lightweight transformer models - T5-Small, BART-Small, and GPT-2 - on the Spider dataset, focusing on low-resource settings. We developed a reusable, model-agnostic pipeline that tailors schema formatting to each model's architecture, training them across 1000 to 5000 iterations and evaluating on 1000 test samp...

ID: 2508.04623v1 cs.CL, cs.IR, 68T50 % Natural language processing (in Computer Science), I.2.7; H.2.3

arXiv PDF

📄 IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

2025-08-09

Авторы:

Xu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen

Задачу повышения инструкционного следования значительно усложняет неэффективная оценка сложности задач в RLVR, а также нежелательное использование подводных займов (reward hacking), когда системы слишком успешно выучиваются подделкам, а не пониманию пользовательских инструкций. IFDecorator — это развитие RLVR, ориентированное на его улучшение. Оно включает в себя систему, генерирующую последовательно более сложные инструкции и верификации (cooperative-adversarial data flywheel), модуль IntentCheck для усиления аллигации интента и trip wires для выявления и устранения недочетов. Эта стратегия позволила достичь 87,43% точности на IFEval, превзойдя даже более крупные проприетарные модели. IFDecorator также показал значительные улучшения на FollowBench, при этом сохранив широкие общие способности. Вывод: IFDecorator значительно повышает эффективность и безопасность RLVR, сделав инструкционное следование более надежным и отказоустойчивым.

Annotation:

Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction following capabilities of large language models (LLMs), but suffers from training inefficiency due to inadequate difficulty assessment. Moreover, RLVR is prone to over-optimization, where LLMs exploit verification shortcuts without aligning to the actual intent of user instructions. We introduce Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR training into a robust and sample-efficient pipeline....

ID: 2508.04632v2 cs.CL

arXiv PDF

📄 Can NLP Tackle Hate Speech in the Real World? Stakeholder-Informed Feedback and Survey on Counterspeech

2025-08-09

Авторы:

Tanvi Dinkar, Aiqi Jiang, Simona Frenda, Poppy Gerrard-Abbott, Nancie Gunson, Gavin Abercrombie, Ioannis Konstas

**Резюме** Hate speech остается серьёзной проблемой в социальных сетях, а counterspeech — качественным подходом к её борьбе. Однако недавние исследования NLP склоняются к автоматизированным подходам, игнорируя вклад стAкехолдеров. В статье проведена систематическая рецензия 74 работ, определяя вклад участия стAкехолдеров в создании данных, разработке и оценке моделей. Дополнительно, проведено 5 интервью с NGOs работающими в области Gender-Based Violence (oGBV), чтобы выявить практики борьбы с онлайн-агрессией, основанные на потребностях сообществ. Основным выводом является растущее расточительство между текущим NLP-исследованием и необходимыми для эффективного counterspeech решений на практике. Рекомендации авторов: возвращать участие стAкехолдеров в стадии данных, моделей и оценки, чтобы сделать NLP-решения более эффективными и соответствующими реальным потребностям.

Annotation:

Counterspeech, i.e. the practice of responding to online hate speech, has gained traction in NLP as a promising intervention. While early work emphasised collaboration with non-governmental organisation stakeholders, recent research trends have shifted toward automated pipelines that reuse a small set of legacy datasets, often without input from affected communities. This paper presents a systematic review of 74 NLP studies on counterspeech, analysing the extent to which stakeholder participatio...

ID: 2508.04638v1 cs.CL

arXiv PDF

📄 Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs

2025-08-09

Авторы:

Noah Ziems, Dilara Soylu, Lakshya A Agrawal, Isaac Miller, Liheng Lai, Chen Qian, Kaiqiang Song, Meng Jiang, Dan Klein, Matei Zaharia, Karel D'Oosterlinck, Christopher Potts, Omar Khattab

Многомодульная версия Group Relative Policy Optimization (mmGRPO) предлагает улучшение метода Group Relative Policy Optimization (GRPO), который применяется для оптимизации пост-тренировочных языковых моделей (LMs). Однако, AI-системы часто выражаются в виде модульных программ, сочетающих несколько вызовов LM с разными модулями, промпто-шаблонами и инструментами. Ранее не было ясно, как лучше всего использовать GRPO для оптимизации таких модульных систем. mmGRPO расширяет GRPO, обеспечивая группировку вызовов LM по модулям на протяжении роллаутов и учитывая переменную длину и прерывистую траекторию. Это решение позволило повысить точность на 11% в среднем при выполнении задач классификации, многохоп-поиска и приватной делегирования, а также на 5% по сравнению с оптимизацией промптов. Метод open-source в DSPy как `dspy.GRPO`.

Annotation:

Group Relative Policy Optimization (GRPO) has proven to be an effective tool for post-training language models (LMs). However, AI systems are increasingly expressed as modular programs that mix together multiple LM calls with distinct prompt templates and other tools, and it is not clear how best to leverage GRPO to improve these systems. We begin to address this challenge by defining mmGRPO, a simple multi-module generalization of GRPO that groups LM calls by module across rollouts and handles ...

ID: 2508.04660v1 cs.CL

arXiv PDF

📄 FaST: Feature-aware Sampling and Tuning for Personalized Preference Alignment with Limited Data

2025-08-09

Авторы:

Thibaut Thonet, Germán Kruszewski, Jos Rozen, Pierre Erbacher, Marc Dymetman

**Резюме** Личность и предпочтения пользователя часто не учитываются при развертывании широкомасштабных технологий генерирующих текст, что приводит к стандартизированному пользовательскому опыту. Данная работа фокусируется на задаче Персонализации Предпочтений с Ограниченными Данными (PPALLI), при которой доступно мало заметок о пользовательских предпочтениях. Основная идея — извлекать и использовать высокоуровневые признаки данных для эффективного адаптации моделей. Мы предлагаем FaST (Feature-aware Sampling and Tuning) — простая и эффективная методика, которая автоматически выявляет и использует основные признаки в данных. Выполнен бенчмарк с использованием двух новых датасетов (DnD и ELIP), подтвердив высокую эффективность FaST в решении задачи PPALLI. Наша работа открывает путь к более личной настройке LLМ-помощников, улучшая пользовательский опыт в ситуациях, где данных ограничено.

Annotation:

LLM-powered conversational assistants are often deployed in a one-size-fits-all manner, which fails to accommodate individual user preferences. Recently, LLM personalization -- tailoring models to align with specific user preferences -- has gained increasing attention as a way to bridge this gap. In this work, we specifically focus on a practical yet challenging setting where only a small set of preference annotations can be collected per user -- a problem we define as Personalized Preference Al...

ID: 2508.04698v1 cs.CL

arXiv PDF

Показано 7331 - 7340 из 7506 записей