📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Unveiling Over-Memorization in Finetuning LLMs for Reasoning Tasks

2025-08-09

Авторы:

Zhiwen Ruan, Yun Chen, Yutao Hou, Peng Li, Yang Liu, Guanhua Chen

На этой работе рассматривается проблема over-memorization в процессе fine-tuning последовательных моделей естественного языка (LLM). Мы обнаружили, что при определенных условиях, включая высокие значения learning rate и большое количество эпох, модели слишком сильно запоминают тренировочные данные, что приводит к высокой точности на тесте, но одновременно к ухудшению робастности, плохой общедоступности и низкому разнообразию последовательностей. Мы проанализировали характеристики этого явления и обнаружили, что оно присутствует в разных задачах, моделях и методах fine-tuning. В качестве рекомендации мы предлагаем осторожно выбирать чекпоинты и learning rate для достижения оптимального баланса между точностью и выносливостью. Наши находки подчеркивают уникальные динамики обучения LLM в процессе fine-tuning и направляют направления для дальнейшего исследования.

Annotation:

The pretrained large language models (LLMs) are finetuned with labeled data for better instruction following ability and alignment with human values. In this paper, we study the learning dynamics of LLM finetuning on reasoning tasks and reveal the uncovered over-memorization phenomenon during a specific stage of LLM finetuning. At this stage, the LLMs have excessively memorized training data and exhibit high test perplexity while maintaining good test accuracy. We investigate the conditions that...

ID: 2508.04117v1 cs.CL

arXiv PDF

📄 Multilingual Source Tracing of Speech Deepfakes: A First Benchmark

2025-08-09

Авторы:

Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen

**Резюме** В последнее время генерируемые с помощью AI звуковые фильмы (deepfake) стали все более простыми в создании, даже при небольшом объеме входных данных. Это делает возможным создание наукоедержанных фальшивых аудиозаписей, которые могут подвергнуться злоупотреблению. До сих пор большая часть исследований была направлена на обнаружение таких фальшивых звуков, но менее внимание уделено исследованию способа определения модели генерации, которой было сделано это. В настоящей работе представлен первый бенчмарк для многоязычного анализа источника генерации deepfake-звуков. Мы исследовали модели DSP и SSL, подробно рассматривали влияние оптимизации SSL-моделей на язык на кросс-язычную обнаруживаемость. Наши результаты дают подробное видение проблемы определения модели генерации в условиях различного языка тренировочных и реальных процессов. Данные, протокол и код доступны на GitHub.

Annotation:

Recent progress in generative AI has made it increasingly easy to create natural-sounding deepfake speech from just a few seconds of audio. While these tools support helpful applications, they also raise serious concerns by making it possible to generate convincing fake speech in many languages. Current research has largely focused on detecting fake speech, but little attention has been given to tracing the source models used to generate it. This paper introduces the first benchmark for multilin...

ID: 2508.04143v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 The State Of TTS: A Case Study with Human Fooling Rates

2025-08-09

Авторы:

Praveen Srinivasa Varadhan, Sherry Thomas, Sai Teja M. S., Suvrat Bhooshan, Mitesh M. Khapra

**Резюме** В статье предлагается Human Fooling Rate (HFR) — метрика, оценивающая вероятность того, что машинно-генерируемое речью может быть путана с речью человека. Авторы проводят широкомасштабное тестирование открытых и коммерческих TTS-систем и выявляют ключевые проблемы: (i) теории о «человеческом качестве», основанных на CMOS, часто не проходят человеческий тест на обман, (ii) для точного бенчмаркинга TTS следует использовать данные, где звучание человека достигает высокого HFR, так как сравнение с маловыразительными референсами снижает степень требований, (iii) коммерческие модели подходят к человеческому уровню в zero-shot сценариях, в то время как открытые системы сложностями страдают при работе с естественным разговорным языком, (iv) тестирование на высококачественных данных улучшает реализм, но не полностью приближает результаты к уровню человеческого. Основной вывод — необходимо развивать более реалистичные, человеко-центричные методы оценки в дополнение к субъективным тестам.

Annotation:

While subjective evaluations in recent years indicate rapid progress in TTS, can current TTS systems truly pass a human deception test in a Turing-like evaluation? We introduce Human Fooling Rate (HFR), a metric that directly measures how often machine-generated speech is mistaken for human. Our large-scale evaluation of open-source and commercial TTS models reveals critical insights: (i) CMOS-based claims of human parity often fail under deception testing, (ii) TTS progress should be benchmarke...

ID: 2508.04179v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Characterizing Deep Research: A Benchmark and Formal Definition

2025-08-09

Авторы:

Abhinav Java, Ashmit Khandelwal, Sukruta Midigeshi, Aaron Halfaker, Amit Deshpande, Navin Goyal, Ankur Gupta, Nagarajan Natarajan, Amit Sharma

Данная работа привносит в существующую литературу определение и формальное характерирование задачи **deep research (DR)**, которая относится к сложной вычислительной и рассуждательной деятельности, необходимой для выполнения заданий по сбору и анализу информации. Авторы подчеркивают, что главной особенностью DR является широкая и разумная исследовательская структура, а не просто производство длинных отчетов. Работа предлагает новый базовый комплекс тестов LiveDRBench, содержащий 100 задач на различные тематики, включая научные и общественно-политические темы. Результаты оценки систем DR показали низкую точность в выполнении этих задач, с F1-мерой от 0.02 до 0.72 для различных подтипов. Открытый модель OpenAI показала лучшую F1-меру — 0.55. Анализ логики работы систем DR показал, что они склонны выполнять многобранчную работу с источниками и часто применяют механизмы возврата. Результаты указывают на необходимость улучшения систем DR в сфере поиска и граундинга.

Annotation:

Information tasks such as writing surveys or analytical reports require complex search and reasoning, and have recently been grouped under the umbrella of \textit{deep research} -- a term also adopted by recent models targeting these capabilities. Despite growing interest, the scope of the deep research task remains underdefined and its distinction from other reasoning-intensive problems is poorly understood. In this paper, we propose a formal characterization of the deep research (DR) task and ...

ID: 2508.04183v1 cs.CL

arXiv PDF

📄 Reasoning Beyond Labels: Measuring LLM Sentiment in Low-Resource, Culturally Nuanced Contexts

2025-08-09

Авторы:

Millicent Ochieng, Anja Thieme, Ignatius Ezeani, Risa Ueno, Samuel Maina, Keshet Ronen, Javier Gonzalez, Jacki O'Neill

Улучшение sentiment analysis в низкоресурсных, культурно гранулярных контекстах остается вызовом для традиционных NLP-подходов, которые считают sentiment фиксированным и универсальным. Мы предлагаем диагностический фреймворк, который расценивает sentiment как контекст-зависимое, культурно вложенное понятие, и исследуем, насколько хорошо large language models (LLMs) справляются с такой анализой в неформальных, code-mixed WhatsApp-сообщениях молодежи из Наироби. Для оценки моделей мы использовали как ручную аннотацию, так и сценарии с подменой sentiment-фраз, а также проверки с помощью раздельной оценки выводов по крупномасштабной рубрике. Наши результаты показывают, что передовые LLMs показывают более стабильные интерпретации, в то время как открытые модели склонны к недостаткам при абстрактности или смене sentiment. Этот подход, ориентированный на социологический метод измерения, подчеркивает необходимость развития culture-aware AI для точного измерения абстрактных понятий в real-world communication.

Annotation:

Sentiment analysis in low-resource, culturally nuanced contexts challenges conventional NLP approaches that assume fixed labels and universal affective expressions. We present a diagnostic framework that treats sentiment as a context-dependent, culturally embedded construct, and evaluate how large language models (LLMs) reason about sentiment in informal, code-mixed WhatsApp messages from Nairobi youth health groups. Using a combination of human-annotated data, sentiment-flipped counterfactuals,...

ID: 2508.04199v1 cs.CL

arXiv PDF

📄 Hierarchical Text Classification Using Black Box Large Language Models

2025-08-09

Авторы:

Kosuke Yoshimura, Hisashi Kashima

**Резюме** В статье рассматривается задача хиерархической классификации текстов (HTC), связанная с проблемами нехватки данных и высокой сложности моделей. Предлагается использовать блэк-боксные Large Language Models (LLMs), доступные через API, в качестве альтернативы стандартным методам машинного обучения, требующим больших объемов меток и вычислительных ресурсов. Авторы экспериментировали с тремя стратегиями подсказок (prompting): Direct Leaf Label Prediction (DL), Direct Hierarchical Label Prediction (DH) и Top-down Multi-step Hierarchical Label Prediction (TMH) в zero-shot и few-shot режимах. Результаты на двух наборах данных показали, что few-shot повышает точность классификации по сравнению с zero-shot. Хотя традиционные методы классификации показали высокую точность на данных с широкой легкодоступной иерархией, LLMs, особенно с DH, показали лучшие результаты на глубокой иерархии. Однако API-затраты на DH высоки из-за большого количества токенов. Таким образом, авторы выделяют торговление между улучшением точности и трудоемкостью выполнения. Наблюдается перспектива LLMs в HTC, но требуется оптимальный выбор стратегий для баланса точности и затрат.

Annotation:

Hierarchical Text Classification (HTC) aims to assign texts to structured label hierarchies; however, it faces challenges due to data scarcity and model complexity. This study explores the feasibility of using black box Large Language Models (LLMs) accessed via APIs for HTC, as an alternative to traditional machine learning methods that require extensive labeled data and computational resources. We evaluate three prompting strategies -- Direct Leaf Label Prediction (DL), Direct Hierarchical Labe...

ID: 2508.04219v1 cs.CL, cs.LG

arXiv PDF

📄 DP-GPT4MTS: Dual-Prompt Large Language Model for Textual-Numerical Time Series Forecasting

2025-08-09

Авторы:

Chanjuan Liu, Shengzhi Wang, Enqiang Zhu

Задача прогнозирования текстово-численных рядов временных рядов является ключевой для стратегического планирования и принятия решений во многих отраслях. Несмотря на то, что текущие модели LLMs (large language models) могут обрабатывать мультимодальные данные, они часто сталкиваются с проблемами эффективного интегрирования текстовых данных, включая текстовую контекстуальную информацию, такую как новости и события. Эти проблемы могут привести к неточности прогнозов и ненужной редупликации информации. Чтобы решить эти задачи, предлагается DP-GPT4MTS (Dual-Prompt Large Language Model for Multimodal Time Series) — модель, основанная на dual-prompt механизме. Она включает в себя оперативный инструктивный промод и контекстуальный промод на основе временных меток данных. Эксперименты по различным текстово-численным данным показали, что DP-GPT4MTS превосходит современные алгоритмы в точности прогнозирования, демонстрируя значимость интеграции текстовой контекстуальной информации с помощью двойных промов.

Annotation:

Time series forecasting is crucial in strategic planning and decision-making across various industries. Traditional forecasting models mainly concentrate on numerical time series data, often overlooking important textual information such as events and news, which can significantly affect forecasting accuracy. While large language models offer a promise for integrating multimodal data, existing single-prompt frameworks struggle to effectively capture the semantics of timestamped text, introducing...

ID: 2508.04239v1 cs.CL

arXiv PDF

📄 Graph Representation Learning with Massive Unlabeled Data for Rumor Detection

2025-08-09

Авторы:

Chaoqun Cui, Caiyan Jia

Данная исследовательская работа опирается на рост распространения слухов через социальные сети, которые наносят великолепный ущерб обществу и экономике. Несмотря на развитие методов обнаружения слухов, существующие подходы сталкиваются с проблемами, такими как недостаточность больших объемов меток данных для обучения, что приводит к понижению общей точности и ухудшению работы моделей на новых событиях. Работа предлагает решение этой проблемы, используя обширные данные без меток, собранные с платформ Weibo и Twitter, структурой распространения твитов. Данные были использованы для улучшения семантических способностей моделей графового представления. В работе применены три метода самостоятельного обучения графов (InfoGraph, JOAO, GraphMAE) под двумя универсальными стратегиями обучения. Наконец, авторы создали большую 10-летнюю выборку данных слухов с различных тем, чтобы уменьшить разницу во времени и тематике между обучающими данными и реальными слухами. Исследование показало, что самостоятельные методы графового обучения превосходят специализированные подходы для обнаружения слухов и демонстрируют высокую общеупотребительность, даже при небольших объемах меток.

Annotation:

With the development of social media, rumors spread quickly, cause great harm to society and economy. Thereby, many effective rumor detection methods have been developed, among which the rumor propagation structure learning based methods are particularly effective compared to other methods. However, the existing methods still suffer from many issues including the difficulty to obtain large-scale labeled rumor datasets, which leads to the low generalization ability and the performance degeneratio...

ID: 2508.04252v1 cs.SI, cs.CL

arXiv PDF

📄 KVSink: Understanding and Enhancing the Preservation of Attention Sinks in KV Cache Quantization for LLMs

2025-08-09

Авторы:

Zunhai Su, Kehong Yuan

**Резюме** Повышение эффективности и снижение потребления ресурсов при интерпретации крупных лингвистических моделей (LLMs) являются текущими целями исследований в области AI. Одной из важных оптимизаций является квантование кэша Key-Value (KV), позволяющее экономить память и уменьшить зависимость от высокопроизводительной памяти. Ранее известно, что квантование KV может негативно сказаться на качестве модели, особенно если оно затрагивает "attention sinks" — ключевые точки, где модель придает большое значение некоторым токенам. Однако ранее не было достаточно глубокого понимания процесса образования таких точек и их взаимосвязи с квантованием. В данной работе предлагается новый подход **KVSink**, который не только эффективно определяет "attention sinks", но и позволяет лучше их защитить, не ухудшая качество модели. Это достигается за счет уточненного понимания роли этих точек в процессе вывода и их взаимодействия с квантованием KV. Тестирование показало, что KVSink превосходит предыдущие методы, обеспечивая более точную защиту ключевых точек и уменьшая зависимость от высокопроизводительных чисел в 16-битном представлении.

Annotation:

Key-Value (KV) cache quantization has become a widely adopted optimization technique for efficient large language models (LLMs) inference by reducing KV cache memory usage and mitigating memory-bound constraints. Recent studies have emphasized the importance of preserving the original precision of KVs for the first few tokens to ensure the protection of attention sinks. While this approach has proven effective in mitigating performance degradation, its underlying principles remain insufficiently...

ID: 2508.04257v1 cs.CL

arXiv PDF

📄 ShoppingBench: A Real-World Intent-Grounded Shopping Benchmark for LLM-based Agents

2025-08-09

Авторы:

Jiangyuan Wang, Kejun Xiao, Qi Sun, Huaipeng Zhao, Tao Luo, Jiandong Zhang, Xiaoyi Zeng

**ShoppingBench: Новая Метрика для Искусственных Агентов в Электронной Коммерции** Проблема: Текущие бенчмарки в электронной коммерции ограничиваются простыми пользовательскими запросами, например, поиском или покупкой товаров. Но реальные пользователи часто сталкиваются с сложными задачами, такими как использование купонов, управление бюджетом и поиск продуктов у многотоварных продавцов. Решение: Мы предлагаем ShoppingBench — новую целостную метрику, охватывающую различные уровни грундированных пользовательских интентов. Для этого разработана система, которая моделирует пользовательские инструкции на основе реальных продуктов. У нас есть большая симуляционная среда с более чем 2,5 миллионами продуктов, на которой проводились эксперименты. Основные выводы: Даже самые современные языковые модели (например, GPT-4.1) достигают успешности менее 50% на наших задачах, показывая сложность задач в ShoppingBench. Мы также предложили стратегию дистилляции знаний из большой модели в меньшую, что позволило достичь результатов, сравнимых с GPT-4.1. Это демонстрирует возможность лучшего использования ресурсов в AI.

Annotation:

Existing benchmarks in e-commerce primarily focus on basic user intents, such as finding or purchasing products. However, real-world users often pursue more complex goals, such as applying vouchers, managing budgets, and finding multi-products seller. To bridge this gap, we propose ShoppingBench, a novel end-to-end shopping benchmark designed to encompass increasingly challenging levels of grounded intent. Specifically, we propose a scalable framework to simulate user instructions based on vario...

ID: 2508.04266v1 cs.CL

arXiv PDF

Показано 7321 - 7330 из 7506 записей