📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time

2025-08-09

Авторы:

Huihan Li, You Chen, Siyuan Wang, Yixin He, Ninareh Mehrabi, Rahul Gupta, Xiang Ren

Большие языковые модели (LLMs) проявляют высокую эффективность в решении рассуждений, но часто страдают от падения качества при небольших изменениях входа. Это особенно заметно в Chain-of-Thought (CoT) решении, где спуражийные запоминания могут привести к ошибкам на промежуточных шагах, приводящим к неверному ответу. Для диагностики этой проблемы предлагается фреймворк STIM (Source-aware Token-level Identification of Memorization), который анализирует каждый токен рассуждения и присваивает его одной из трех категорий запоминания: локальное, среднестепенное или дальностепенное, определяясь по частоте встречаемости в корпусе предварительного тренирования. Исследования показали, что модели в трудных и редких случаях часто полагаются на локальные запоминания, что приводит к ошибкам в 67% токенов. Метрики STIM могут эффективно предсказывать неверные токены на неверных шагах. Таким образом, STIM предоставляет мощный инструмент для диагностики и улучшения логики моделей, применимость которого распространяется на другие задачи структурированного пошагового генерирования.

Annotation:

Large Language Models (LLMs) perform well on reasoning benchmarks but often fail when inputs alter slightly, raising concerns about the extent to which their success relies on memorization. This issue is especially acute in Chain-of-Thought (CoT) reasoning, where spurious memorized patterns can trigger intermediate errors that cascade into incorrect final answers. We introduce STIM, a novel framework for Source-aware Token-level Identification of Memorization, which attributes each token in a re...

ID: 2508.02037v1 cs.CL, cs.AI

arXiv PDF

📄 Marco-Voice Technical Report

2025-08-09

Авторы:

Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang

Научная статья "Marco-Voice Technical Report" предлагает многофункциональную систему генерации речи, которая объединяет в себе технологии клонирования голоса и управления эмоциями в единой структуре. Целью работы является решение проблемы достижения выразительности, контролируемости и естественности генерируемого речи, при этом сохраняя идентичность голоса и эмоции в разных языковых и эмоциональных контекстах. Авторы предлагают механизм разделения голоса и эмоции с помощью встроенного метода контрастного обучения и метод вращательной интеграции эмоциональных векторов для гладкого управления эмоцией. Для обеспечения эффективного обучения и оценки системы, разработана высококачественная эмоциональная голосовая база данных CSEMOTIONS, содержащая 10 часов мандаринского речи с шести профессиональных спикеров по восьми эмоциональным категориям. Эксперименты показали, что система Marco-Voice демонстрирует улучшения в объективных и субъективных метриках, став конкурентоспособной в области выразительной генерации речи на основе нейронных моделей.

Annotation:

This paper presents a multifunctional speech synthesis system that integrates voice cloning and emotion control speech synthesis within a unified framework. The goal of this work is to address longstanding challenges in achieving highly expressive, controllable, and natural speech generation that faithfully preserves speaker identity across diverse linguistic and emotional contexts. Our approach introduces an effective speaker-emotion disentanglement mechanism with in-batch contrastive learning,...

ID: 2508.02038v2 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models

2025-08-09

Авторы:

Soyeon Kim, Jindong Wang, Xing Xie, Steven Euijong Whang

**Резюме** Логические языковые модели (LLMs) становятся все более важной частью систем, работающих с временными данными. Однако оценка их точности в задачах временных вопросов-ответов (TSQA) становится сложной из-за недостатка скейлируемых и разнообразных бенчмарков. Мы предлагаем TDBench — новый метод оценки, основанный на временных базах данных. Он автоматически генерирует TSQA-пары, используя временные SQL-запросы и функциональные зависимости. Для точной оценки результатов LLMs мы предлагаем метрику time accuracy, которая выявляет не только верность ответов, но и определяет точность использования временных ссылок в разъяснениях. Наши эксперименты показали, что TDBench обеспечивает скейлируемую и широковещательную оценку LLMs в TSQA, уменьшая необходимость вручную создавать данные. Это расширяет область оценки LLMs, используя прикладные временные базы данных и позволяя выполнять многошаговые запросы.

Annotation:

Facts evolve over time, making it essential for Large Language Models (LLMs) to handle time-sensitive factual knowledge accurately and reliably. While factual Time-Sensitive Question-Answering (TSQA) tasks have been widely studied, existing benchmarks often rely on manual curation or a small, fixed set of predefined templates, which restricts scalable and comprehensive TSQA evaluation. To address these challenges, we propose TDBench, a new benchmark that systematically constructs TSQA pairs by h...

ID: 2508.02045v1 cs.CL

arXiv PDF

📄 ProCut: LLM Prompt Compression via Attribution Estimation

2025-08-09

Авторы:

Zhentao Xu, Fengyi Li, Albert Chen, Xiaofeng Wang

**Резюме** В крупномасштабных системах с LLM, шаблоны запросов часто растягиваются до тысяч токенов, включая инструкции по задаче, примеры для нескольких попыток и правила оптимизации. Это приводит к громоздкости шаблонов, усложнению их поддержки и повышению задержек вывода. Для решения этой проблемы предлагается ProCut — гибкий, агностический к LLM, автономный по отношению к обучению фреймворк. Он структурирует шаблоны запросов, оценивает их вклад в результат задачи и удаляет менее важные элементы. На экспериментальных данных из пяти общедоступных наборов данных и реальных промышленных шаблонах, ProCut снизил размер шаблонов до 78%, сохранив или даже улучшив производительность (до 62% лучше альтернативных методов). Был предложен LLM-драйвенный алгоритм для эффективной оценки вклада, что снизил задержки при сжатии до 50%. Таким образом, ProCut позволяет создавать компактные, эффективные и производительные шаблоны запросов.

Annotation:

In large-scale industrial LLM systems, prompt templates often expand to thousands of tokens as teams iteratively incorporate sections such as task instructions, few-shot examples, and heuristic rules to enhance robustness and coverage. This expansion leads to bloated prompts that are difficult to maintain and incur significant inference latency and serving costs. To address this, we introduce Prompt Compression via Attribution Estimation (ProCut), a flexible, LLM-agnostic, training-free framewor...

ID: 2508.02053v1 cs.CL, cs.LG

arXiv PDF

📄 MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs

2025-08-09

Авторы:

Guojiang Zhao, Sihang Li, Zixiang Lu, Zheng Cheng, Haitao Lin, Lirong Wu, Hanchen Xia, Hengxing Cai, Wentao Guo, Hongshuai Wang, Mingjun Xu, Siyu Zhu, Guolin Ke, Linfeng Zhang, Zhifeng Gao

Многозначные языковые модели (LLMs) доказали свою эффективность во многих областях, но в молекулярной рассуждательной задаче их потенциал остается недостаточно использованным. Основные проблемы — это недостаток доменной специфичности при обучении и недостаток транспарентности в процессе рассуждения. Мы предлагаем MolReasoner — двухступенчатый подход, превращающий LLM из модели меморизации в модель молекулярного рассуждения. В первой стадии Mol-SFT использует синтетические Chain-of-Thought (CoT) примеры, созданные GPT-4o и проверенные на молекулярную точность. Во второй стадии Mol-RL расширяет модель с помощью усовершенствованных функций наград, чтобы усилить логику и улучшить проникновение в молекулярные структуры. Эксперименты показали, что MolReasoner значительно повышает точность и интерпретируемость результатов в сравнении с другими методами, превращая LLM в эффективный инструмент для молекулярной рассуждательной задачи.

Annotation:

Large Language Models(LLMs) have demonstrated remarkable performance across various domains, yet their capabilities in molecular reasoning remain insufficiently explored. Current approaches tend to rely heavily on general-purpose prompting, which lacks domain-specific molecular semantics, while those that use fine-tuning strategies often face challenges with interpretability and reasoning depth. To address these issues, we introduce MolReasoner, a two-stage framework designed to transition LLMs ...

ID: 2508.02066v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 The SMeL Test: A simple benchmark for media literacy in language models

2025-08-09

Авторы:

Gustaf Ahdritz, Anat Kleiman

Увеличение доступности информации в интернете породило проблему недостоверного или якобы злонамеренного контента. Опытные исследователи применяют различные жидкие трюки, чтобы отфильтровать такой контент, но неясно, насколько эффективно такие методы поняты и реализованы языковыми моделями. В статье предлагается SMeL Test — минимальный бенчмарк для оценки возможностей LLMs в активном отборе недостоверных сведений. Он отражает реальные задачи, с которыми сталкиваются исследователи при работе с ненадёжными источниками. Модели, включая те, специализирующиеся на рассуждении, показывают низкие результаты: даже лучший API модель спутал до 70% случаев. Несовпадение моделей большого размера с меньшими без очевидных причин также выявлено. Этот результат подчёркивает необходимость дальнейшего исследования взаимоотношений между моделями разных размеров и выделения методов, способных лучше удерживать ненадёжность в ненадёжных источниках.

Annotation:

The internet is rife with unattributed, deliberately misleading, or otherwise untrustworthy content. Though large language models (LLMs) are often tasked with autonomous web browsing, the extent to which they have learned the simple heuristics human researchers use to navigate this noisy environment is not currently known. In this paper, we introduce the Synthetic Media Literacy Test (SMeL Test), a minimal benchmark that tests the ability of language models to actively filter out untrustworthy i...

ID: 2508.02074v2 cs.CL, cs.LG

arXiv PDF

📄 Human Capital Visualization using Speech Amount during Meetings

2025-08-09

Авторы:

Ekai Hashimoto, Takeshi Mizumoto, Kohei Nagira, Shun Shiramatsu

Резюме: В последние годы большинство компаний признали важность людей в качестве ресурса и начали вкладываться в их развитие для улучшения внутренней связи и оживления организаций. Однако ранее разработанные методы оценки человеческого капитала ориентировались лишь на легко измеримые показатели, не учитывая важность общения в этом контексте. Данное исследование ориентируется на типичные встречи и предлагает методы для визуализации человеческого капитала через анализ объема речи в течение встреч. Используя технологии визуализации бесед, авторы измеряют различия в речи по характеристикам, таким как пол и должность, а также сравнивают речевую активность в зависимости от присутствия определенных участников и постоянных показателей. Эти методы были проверены на анализе речи в малых и средних предприятиях во время недельных встреч. Результаты показали, что анализ речи может дать новые виды визуализации человеческого капитала.

Annotation:

In recent years, many companies have recognized the importance of human resources and are investing in human capital to revitalize their organizations and enhance internal communication, thereby fostering innovation. However, conventional quantification methods have mainly focused on readily measurable indicators without addressing the fundamental role of conversations in human capital. This study focuses on routine meetings and proposes strategies to visualize human capital by analyzing speech ...

ID: 2508.02075v1 cs.HC, cs.CL, cs.CY

arXiv PDF

📄 When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models

2025-08-09

Авторы:

Keyu Wang, Jin Li, Shu Yang, Zhuoran Zhang, Di Wang

**Резюме** В настоящей работе анализируется синдром сикофантизма (sycophancy) у Лангуажного моделя (LLM), когда модель соглашается с пользовательскими утверждениями, даже когда они противоречат фактическим данным. Исследование показало, что проблема возникает в глубинных слоях модели, где знания перекрываются логикой пользовательского ввода. Основной причиной сикофантизма выступает позднеслойный предпочтение выхода и глубинное расхождение представлений, независимо от уровня экспертизы пользователя или его авторитетности. Исследователи использовали методы logit-lens и causal activation patching, чтобы проанализировать внутренние механизмы этого явления. Оказалось, что сикофантизм связан не с поверхностными особенностями языка, а с глубинными представлениями, которые могут перекрывать существующие знания. Эти выводы могут помочь в создании более адекватных методов лингвистического алмазанства и систем, способных устойчиво отвечать на правдивые запросы.

Annotation:

Large Language Models (LLMs) often exhibit sycophantic behavior, agreeing with user-stated opinions even when those contradict factual knowledge. While prior work has documented this tendency, the internal mechanisms that enable such behavior remain poorly understood. In this paper, we provide a mechanistic account of how sycophancy arises within LLMs. We first systematically study how user opinions induce sycophancy across different model families. We find that simple opinion statements reliabl...

ID: 2508.02087v2 cs.CL

arXiv PDF

📄 CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

2025-08-09

Авторы:

Xiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

Статья предлагает CRINN (Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search) — новую подходящую для распределительных систем, таких как Retrieval-Augmented Generation (RAG) и Agent-Based Large Language Models (LLM), алгоритм для решения задачи оптимизации Approximate Nearest Neighbor Search (ANNS). Авторы относят ANNS к задачам об ускорении работы, трактуя её как задачу обучения с подкреплением (RL), где скорость выполнения является сигналом вознаграждения. Таким образом, CRINN автоматически генерирует ANNS-решения, обеспечивая быстродействие и сохраняя точность. Экспериментальные результаты показали, что CRINN превосходит существующие решения на трёх из шести бенчмарков данных, сравнявшись с ними на двух. Это доказывает, что LLMs, оснащённые RL, могут эффективно автоматизировать алгоритмическую оптимизацию, требующую специализированных знаний и трудоёмких работ. Доступен код на GitHub: https://github.com/deepreinforce-ai/CRINN.

Annotation:

Approximate nearest-neighbor search (ANNS) algorithms have become increasingly critical for recent AI applications, particularly in retrieval-augmented generation (RAG) and agent-based LLM applications. In this paper, we present CRINN, a new paradigm for ANNS algorithms. CRINN treats ANNS optimization as a reinforcement learning problem where execution speed serves as the reward signal. This approach enables the automatic generation of progressively faster ANNS implementations while maintaining ...

ID: 2508.02091v1 cs.LG, cs.AI, cs.CL, cs.DB

arXiv PDF

📄 "Harmless to You, Hurtful to Me!": Investigating the Detection of Toxic Languages Grounded in the Perspective of Youth

2025-08-09

Авторы:

Yaqiong Li, Peng Zhang, Lin Wang, Hansu Gu, Siyuan Qiao, Ning Gu, Tun Lu

Молодые пользователи социальных сетей часто воспринимают как язык, который неявно считается безопасным для взрослых, опасным для себя. Однако существующие модели обнаружения токсичности текстов не учитывают эти отличия восприятия, что приводит к недостаточной эффективности во взаимодействии с молодежью. В статье предлагается изучить этот аспект, определив признаки, характеризующие токсичность языка, особенно для молодежи, и проверив, насколько существующие модели способны точно его обнаруживать. Для этого был создан первый китайский датасет, охватывающий такой язык. На основе исследования выяснилось, что контекст включая источник высказывания и текстовые признаки, важен для понимания молодежной токсичности. Обучение моделей с учетом этих факторов позволяет улучшить точность детекции. В конце же авторы дают рекомендации для будущих исследований в области молодежно-центрированного обнаружения токсичности.

Annotation:

Risk perception is subjective, and youth's understanding of toxic content differs from that of adults. Although previous research has conducted extensive studies on toxicity detection in social media, the investigation of youth's unique toxicity, i.e., languages perceived as nontoxic by adults but toxic as youth, is ignored. To address this gap, we aim to explore: 1) What are the features of ``youth-toxicity'' languages in social media (RQ1); 2) Can existing toxicity detection techniques accurat...

ID: 2508.02094v1 cs.CL, cs.HC

arXiv PDF

1
2
3342
3343
3344
3345
3346
3460
3461

Показано 33431 - 33440 из 34607 записей