📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models

2025-08-09

Авторы:

Soyeon Kim, Jindong Wang, Xing Xie, Steven Euijong Whang

**Резюме** Логические языковые модели (LLMs) становятся все более важной частью систем, работающих с временными данными. Однако оценка их точности в задачах временных вопросов-ответов (TSQA) становится сложной из-за недостатка скейлируемых и разнообразных бенчмарков. Мы предлагаем TDBench — новый метод оценки, основанный на временных базах данных. Он автоматически генерирует TSQA-пары, используя временные SQL-запросы и функциональные зависимости. Для точной оценки результатов LLMs мы предлагаем метрику time accuracy, которая выявляет не только верность ответов, но и определяет точность использования временных ссылок в разъяснениях. Наши эксперименты показали, что TDBench обеспечивает скейлируемую и широковещательную оценку LLMs в TSQA, уменьшая необходимость вручную создавать данные. Это расширяет область оценки LLMs, используя прикладные временные базы данных и позволяя выполнять многошаговые запросы.

Annotation:

Facts evolve over time, making it essential for Large Language Models (LLMs) to handle time-sensitive factual knowledge accurately and reliably. While factual Time-Sensitive Question-Answering (TSQA) tasks have been widely studied, existing benchmarks often rely on manual curation or a small, fixed set of predefined templates, which restricts scalable and comprehensive TSQA evaluation. To address these challenges, we propose TDBench, a new benchmark that systematically constructs TSQA pairs by h...

ID: 2508.02045v1 cs.CL

arXiv PDF

📄 ProCut: LLM Prompt Compression via Attribution Estimation

2025-08-09

Авторы:

Zhentao Xu, Fengyi Li, Albert Chen, Xiaofeng Wang

**Резюме** В крупномасштабных системах с LLM, шаблоны запросов часто растягиваются до тысяч токенов, включая инструкции по задаче, примеры для нескольких попыток и правила оптимизации. Это приводит к громоздкости шаблонов, усложнению их поддержки и повышению задержек вывода. Для решения этой проблемы предлагается ProCut — гибкий, агностический к LLM, автономный по отношению к обучению фреймворк. Он структурирует шаблоны запросов, оценивает их вклад в результат задачи и удаляет менее важные элементы. На экспериментальных данных из пяти общедоступных наборов данных и реальных промышленных шаблонах, ProCut снизил размер шаблонов до 78%, сохранив или даже улучшив производительность (до 62% лучше альтернативных методов). Был предложен LLM-драйвенный алгоритм для эффективной оценки вклада, что снизил задержки при сжатии до 50%. Таким образом, ProCut позволяет создавать компактные, эффективные и производительные шаблоны запросов.

Annotation:

In large-scale industrial LLM systems, prompt templates often expand to thousands of tokens as teams iteratively incorporate sections such as task instructions, few-shot examples, and heuristic rules to enhance robustness and coverage. This expansion leads to bloated prompts that are difficult to maintain and incur significant inference latency and serving costs. To address this, we introduce Prompt Compression via Attribution Estimation (ProCut), a flexible, LLM-agnostic, training-free framewor...

ID: 2508.02053v1 cs.CL, cs.LG

arXiv PDF

📄 MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs

2025-08-09

Авторы:

Guojiang Zhao, Sihang Li, Zixiang Lu, Zheng Cheng, Haitao Lin, Lirong Wu, Hanchen Xia, Hengxing Cai, Wentao Guo, Hongshuai Wang, Mingjun Xu, Siyu Zhu, Guolin Ke, Linfeng Zhang, Zhifeng Gao

Многозначные языковые модели (LLMs) доказали свою эффективность во многих областях, но в молекулярной рассуждательной задаче их потенциал остается недостаточно использованным. Основные проблемы — это недостаток доменной специфичности при обучении и недостаток транспарентности в процессе рассуждения. Мы предлагаем MolReasoner — двухступенчатый подход, превращающий LLM из модели меморизации в модель молекулярного рассуждения. В первой стадии Mol-SFT использует синтетические Chain-of-Thought (CoT) примеры, созданные GPT-4o и проверенные на молекулярную точность. Во второй стадии Mol-RL расширяет модель с помощью усовершенствованных функций наград, чтобы усилить логику и улучшить проникновение в молекулярные структуры. Эксперименты показали, что MolReasoner значительно повышает точность и интерпретируемость результатов в сравнении с другими методами, превращая LLM в эффективный инструмент для молекулярной рассуждательной задачи.

Annotation:

Large Language Models(LLMs) have demonstrated remarkable performance across various domains, yet their capabilities in molecular reasoning remain insufficiently explored. Current approaches tend to rely heavily on general-purpose prompting, which lacks domain-specific molecular semantics, while those that use fine-tuning strategies often face challenges with interpretability and reasoning depth. To address these issues, we introduce MolReasoner, a two-stage framework designed to transition LLMs ...

ID: 2508.02066v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 The SMeL Test: A simple benchmark for media literacy in language models

2025-08-09

Авторы:

Gustaf Ahdritz, Anat Kleiman

Увеличение доступности информации в интернете породило проблему недостоверного или якобы злонамеренного контента. Опытные исследователи применяют различные жидкие трюки, чтобы отфильтровать такой контент, но неясно, насколько эффективно такие методы поняты и реализованы языковыми моделями. В статье предлагается SMeL Test — минимальный бенчмарк для оценки возможностей LLMs в активном отборе недостоверных сведений. Он отражает реальные задачи, с которыми сталкиваются исследователи при работе с ненадёжными источниками. Модели, включая те, специализирующиеся на рассуждении, показывают низкие результаты: даже лучший API модель спутал до 70% случаев. Несовпадение моделей большого размера с меньшими без очевидных причин также выявлено. Этот результат подчёркивает необходимость дальнейшего исследования взаимоотношений между моделями разных размеров и выделения методов, способных лучше удерживать ненадёжность в ненадёжных источниках.

Annotation:

The internet is rife with unattributed, deliberately misleading, or otherwise untrustworthy content. Though large language models (LLMs) are often tasked with autonomous web browsing, the extent to which they have learned the simple heuristics human researchers use to navigate this noisy environment is not currently known. In this paper, we introduce the Synthetic Media Literacy Test (SMeL Test), a minimal benchmark that tests the ability of language models to actively filter out untrustworthy i...

ID: 2508.02074v2 cs.CL, cs.LG

arXiv PDF

📄 Human Capital Visualization using Speech Amount during Meetings

2025-08-09

Авторы:

Ekai Hashimoto, Takeshi Mizumoto, Kohei Nagira, Shun Shiramatsu

Резюме: В последние годы большинство компаний признали важность людей в качестве ресурса и начали вкладываться в их развитие для улучшения внутренней связи и оживления организаций. Однако ранее разработанные методы оценки человеческого капитала ориентировались лишь на легко измеримые показатели, не учитывая важность общения в этом контексте. Данное исследование ориентируется на типичные встречи и предлагает методы для визуализации человеческого капитала через анализ объема речи в течение встреч. Используя технологии визуализации бесед, авторы измеряют различия в речи по характеристикам, таким как пол и должность, а также сравнивают речевую активность в зависимости от присутствия определенных участников и постоянных показателей. Эти методы были проверены на анализе речи в малых и средних предприятиях во время недельных встреч. Результаты показали, что анализ речи может дать новые виды визуализации человеческого капитала.

Annotation:

In recent years, many companies have recognized the importance of human resources and are investing in human capital to revitalize their organizations and enhance internal communication, thereby fostering innovation. However, conventional quantification methods have mainly focused on readily measurable indicators without addressing the fundamental role of conversations in human capital. This study focuses on routine meetings and proposes strategies to visualize human capital by analyzing speech ...

ID: 2508.02075v1 cs.HC, cs.CL, cs.CY

arXiv PDF

📄 When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models

2025-08-09

Авторы:

Keyu Wang, Jin Li, Shu Yang, Zhuoran Zhang, Di Wang

**Резюме** В настоящей работе анализируется синдром сикофантизма (sycophancy) у Лангуажного моделя (LLM), когда модель соглашается с пользовательскими утверждениями, даже когда они противоречат фактическим данным. Исследование показало, что проблема возникает в глубинных слоях модели, где знания перекрываются логикой пользовательского ввода. Основной причиной сикофантизма выступает позднеслойный предпочтение выхода и глубинное расхождение представлений, независимо от уровня экспертизы пользователя или его авторитетности. Исследователи использовали методы logit-lens и causal activation patching, чтобы проанализировать внутренние механизмы этого явления. Оказалось, что сикофантизм связан не с поверхностными особенностями языка, а с глубинными представлениями, которые могут перекрывать существующие знания. Эти выводы могут помочь в создании более адекватных методов лингвистического алмазанства и систем, способных устойчиво отвечать на правдивые запросы.

Annotation:

Large Language Models (LLMs) often exhibit sycophantic behavior, agreeing with user-stated opinions even when those contradict factual knowledge. While prior work has documented this tendency, the internal mechanisms that enable such behavior remain poorly understood. In this paper, we provide a mechanistic account of how sycophancy arises within LLMs. We first systematically study how user opinions induce sycophancy across different model families. We find that simple opinion statements reliabl...

ID: 2508.02087v2 cs.CL

arXiv PDF

📄 CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

2025-08-09

Авторы:

Xiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

Статья предлагает CRINN (Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search) — новую подходящую для распределительных систем, таких как Retrieval-Augmented Generation (RAG) и Agent-Based Large Language Models (LLM), алгоритм для решения задачи оптимизации Approximate Nearest Neighbor Search (ANNS). Авторы относят ANNS к задачам об ускорении работы, трактуя её как задачу обучения с подкреплением (RL), где скорость выполнения является сигналом вознаграждения. Таким образом, CRINN автоматически генерирует ANNS-решения, обеспечивая быстродействие и сохраняя точность. Экспериментальные результаты показали, что CRINN превосходит существующие решения на трёх из шести бенчмарков данных, сравнявшись с ними на двух. Это доказывает, что LLMs, оснащённые RL, могут эффективно автоматизировать алгоритмическую оптимизацию, требующую специализированных знаний и трудоёмких работ. Доступен код на GitHub: https://github.com/deepreinforce-ai/CRINN.

Annotation:

Approximate nearest-neighbor search (ANNS) algorithms have become increasingly critical for recent AI applications, particularly in retrieval-augmented generation (RAG) and agent-based LLM applications. In this paper, we present CRINN, a new paradigm for ANNS algorithms. CRINN treats ANNS optimization as a reinforcement learning problem where execution speed serves as the reward signal. This approach enables the automatic generation of progressively faster ANNS implementations while maintaining ...

ID: 2508.02091v1 cs.LG, cs.AI, cs.CL, cs.DB

arXiv PDF

📄 "Harmless to You, Hurtful to Me!": Investigating the Detection of Toxic Languages Grounded in the Perspective of Youth

2025-08-09

Авторы:

Yaqiong Li, Peng Zhang, Lin Wang, Hansu Gu, Siyuan Qiao, Ning Gu, Tun Lu

Молодые пользователи социальных сетей часто воспринимают как язык, который неявно считается безопасным для взрослых, опасным для себя. Однако существующие модели обнаружения токсичности текстов не учитывают эти отличия восприятия, что приводит к недостаточной эффективности во взаимодействии с молодежью. В статье предлагается изучить этот аспект, определив признаки, характеризующие токсичность языка, особенно для молодежи, и проверив, насколько существующие модели способны точно его обнаруживать. Для этого был создан первый китайский датасет, охватывающий такой язык. На основе исследования выяснилось, что контекст включая источник высказывания и текстовые признаки, важен для понимания молодежной токсичности. Обучение моделей с учетом этих факторов позволяет улучшить точность детекции. В конце же авторы дают рекомендации для будущих исследований в области молодежно-центрированного обнаружения токсичности.

Annotation:

Risk perception is subjective, and youth's understanding of toxic content differs from that of adults. Although previous research has conducted extensive studies on toxicity detection in social media, the investigation of youth's unique toxicity, i.e., languages perceived as nontoxic by adults but toxic as youth, is ignored. To address this gap, we aim to explore: 1) What are the features of ``youth-toxicity'' languages in social media (RQ1); 2) Can existing toxicity detection techniques accurat...

ID: 2508.02094v1 cs.CL, cs.HC

arXiv PDF

📄 Trainable Dynamic Mask Sparse Attention

2025-08-09

Авторы:

Jingze Shi, Yifan Wu, Bingheng Wu, Yiran Peng, Liangdong Wang, Guang Liu, Yuyu Luo

Большие языковые модели сталкиваются с проблемой моделирования длинных контекстов из-за квадратичной сложности стандартного self-attention механизма. Для решения этой проблемы предложен механизм Dynamic Mask Attention (DMA), который эффективно использует две формы спарсинга: содержательно-ориентированную (content-aware) и позиционно-ориентированную (position-aware). DMA динамически генерирует маски для валидных позиций, адаптируясь к контексту, и оптимизирует вычисления, пропуская ненужные регионы. Этот подход эффективно сочетает высокую эффективность и поддержание точности. Исследования показали, что DMA превосходит множественный self-attention, скользящее окно и другие способы в задачах предсказания языка (perplexity) и многозадачных задачах, таких как associative recall. Эксперименты в 1.7B параметров подтвердили, что DMA обеспечивает значительное улучшение в производительности и моделировании длинных контекстов, делая его привлекательным решением для современных моделей.

Annotation:

In large language models, the demand for modeling long contexts is constantly increasing, but the quadratic complexity of the standard self-attention mechanism often becomes a bottleneck. Although existing sparse attention mechanisms have improved efficiency, they may still encounter issues such as static patterns or information loss. We introduce a trainable dynamic mask sparse attention mechanism, Dynamic Mask Attention, which effectively utilizes content-aware and position-aware sparsity. DMA...

ID: 2508.02124v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers

2025-08-09

Авторы:

Liang Lin, Miao Yu, Kaiwen Luo, Yibo Zhang, Lilan Peng, Dexian Wang, Xuehai Tang, Yuanhe Zhang, Xikang Yang, Zhenhong Zhou, Kun Wang, Yang Liu

Научная статья "Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers" адресует вопрос уязвимости Audio Large Language Models (ALLMs) для backdoor-атак, использующих акустические триггеры. Авторы предлагают Hidden in the Noise (HIN), новую фреймворк атаки, который использует подtleвые аккустические особенности, такие как изменения динамики звука и стратегическая инъекция шума. Эти изменения вводят постоянные шаблоны, которые ALLM-акустический кодировщик сталкивается, встраивая триггеры в аудиопоток. Чтобы оценить устойчивость ALLM к таким атакам, разработана бенчмарк AudioSafe, который оценивает девять типов рисков. Эксперименты показали, что атаки, использующие шум и перемены речи, достигают более 90% успеха, что ALLM сильно зависит от акустических особенностей, в частности, малочувствительны к громкости, и что триггеры почти не влияют на потери тренировки, демонстрируя свою стезуюсть. Эти выводы подчеркивают необходимость дальнейшего исследования защиты ALLM от таких угроз.

Annotation:

As Audio Large Language Models (ALLMs) emerge as powerful tools for speech processing, their safety implications demand urgent attention. While considerable research has explored textual and vision safety, audio's distinct characteristics present significant challenges. This paper first investigates: Is ALLM vulnerable to backdoor attacks exploiting acoustic triggers? In response to this issue, we introduce Hidden in the Noise (HIN), a novel backdoor attack framework designed to exploit subtle, ...

ID: 2508.02175v2 cs.SD, cs.CL, eess.AS

arXiv PDF

Показано 7221 - 7230 из 7506 записей