📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Exploring Superior Function Calls via Reinforcement Learning

2025-08-11

Авторы:

Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang

## Контекст Функциональные вызовы являются ключевым компонентом для развертывания бо LLM в реальных приложениях, однако существующие методы тренировки часто не способны развивать резонантные стратегии. Методы супервизорного тюнинга приводят к моделям, ограниченным в их возможности, тогда как стандартные методы RL сталкиваются с проблемами в управлении сложной структурой действий. В работе предлагается новый RL-фреймворк, ориентированный на улучшение групповой политики относительной оптимизации с использованием стратегического эксплорения на основе энтропии. Это решение направлено на решение трех ключевых проблем: нехватка эксплорения во время политического обучения, отсутствие структурированного рассуждения в цепочках мыслей и неэффективность верификации извлечения параметров. ## Метод Методология основана на двух этапах подготовки данных. В первой фазе используется итеративный процесс, в котором LLM сам оценивает качество выборки, а во второй фазе используется абстрактное синтаксическое дерево для верификации. Фреймворк RL строится на основе усовершенствованной стратегии "политики с относительным групповым оптимизацией", в которой энтропия эксплорения играет ключевую роль в развитии разума. Это позволяет модели лучше отделять значимые от ненадежных вызовов, строить логические цепочки и эффективно проверять входные данные. ## Результаты Проведенные эксперименты на Berkley Function Calling Leaderboard показали, что предлагаемый подход достигает 86.02% правильности, превосходя стандартные методы GRPO на 6% в сложных сценариях. Особенно выдающиеся результаты получены при применении к моделям, специализирующимся на кодировании. Это подтверждает, что структурированные подходы к генерации языка могут значительно улучшить качество результатов в обучении RL для функциональных вызовов. ## Значимость Предлагаемый подход может быть применен в различных сегментах, где требуется структурированная система логического поведения, таких как кодирование, анализ и визуализация данных. Благодаря стратегическому эксплору и структурному рассуждению, он предлагает более надежные и точные решения. Последствия его развертывания могут включать улучшение производительности систем и создание более удобных интерфейсов для пользователей. ## Выводы Этот рабочий процесс RL показал свою эффективность в решении сложных задач функциональных вызовов, достигнув лидирующих результатов. Мы планируем продолжить работу над более сложными сценариями и расширением возможностей E2E-системы, чтобы обеспечить универсальность и масш

Annotation:

Function calling capabilities are crucial for deploying Large Language Models in real-world applications, yet current training approaches fail to develop robust reasoning strategies. Supervised fine-tuning produces models that rely on superficial pattern matching, while standard reinforcement learning methods struggle with the complex action space of structured function calls. We present a novel reinforcement learning framework designed to enhance group relative policy optimization through strat...

ID: 2508.05118v2 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints

2025-08-11

Авторы:

Zhong Ken Hew, Jia Xin Low, Sze Jue Yang, Chee Seng Chan

## Контекст В статье "MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints" рассматривается проблема того, что Large Language Models (LLMs) часто имеют культурные базисы, полученные из тренировочных данных, где преобладают высокоресурсные языки, такие как английский и китайский. Это приводит к ограниченной точности при оценке языков с низким ресурсом и к нечесальному представлению культурных контекстов, особенно в контексте низкоресурсных языков. Для решения этой проблемы авторы предлагают MyCulture, новый бенчмарк, предназначенный для оценки LLMs на восприятии малайской культуры в шести областях: искусства, одежды, обычаи, развлечения, пища и религия, представленные на языке Бахаса Мелаю. Этот бенчмарк использует несколько новых подходов, включая открытые ответы в формате нескольких выборок без предварительно определенных вариантов ответов, чтобы избежать биаса, связанного с таким форматом. ## Метод Авторы разработали MyCulture, включающий шесть категорий культурных аспектов, каждая из которых содержит открытые вопросы с ответами в формате нескольких выборок. Методология включает описание подробной архитектуры, включающей не только технические решения, но и структуру вопросов, которая должна снизить влияние биаса формата. Метод также включает теоретическое обоснование, которое поддерживает эффективность открытого формата в повышении честности и отличительности моделей. Эталон охватывает как региональные, так и международные LLMs, чтобы проявить различия в понимании культуры. ## Результаты Результаты опробованы на различных региональных и международных LLMs. Было проанализировано, как эти модели справляются с оценкой шести различных культурных аспектов, которые были представлены в языке Бахаса Мелаю. Эксперименты показали, что существуют значительные различия в точности и честности моделей при обработке открытых ответов в сравнении с форматированными выходами. Также была проверена структурная биаса, сравнивая выводы моделей в структурированной форме и без структуры. ## Значимость Полученные результаты показывают, что MyCulture может быть применен в различных областях, включая культурные исследования, локализацию LLMs и развитие интеллектуальных систем, которые могут правильно оценивать индивидуальные культурные контексты. Этот исследовательский подход предоставляет более точное и честное представление культурных явлений и демонстрирует важность языковой и культурной включенности при развитии новых моделей языка. ## Выводы Выводы постоянной статьи могут сводяться

Annotation:

Large Language Models (LLMs) often exhibit cultural biases due to training data dominated by high-resource languages like English and Chinese. This poses challenges for accurately representing and evaluating diverse cultural contexts, particularly in low-resource language settings. To address this, we introduce MyCulture, a benchmark designed to comprehensively evaluate LLMs on Malaysian culture across six pillars: arts, attire, customs, entertainment, food, and religion presented in Bahasa Mela...

ID: 2508.05429v2 cs.CL, cs.AI

arXiv PDF

📄 Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?

2025-08-11

Авторы:

Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti

Резюме: ## Контекст Появление General Purpose AI (GPAI) требует эффективных фреймворков для оценки, особенно в свете нормативных требований Европейского Союза, таких как EU AI Act и Code of Practice (CoP). Основными проблемами являются недостатки в существующих методах оценки, не отвечающих новым потребностям регулирования, а именно в сфере учета системных рисков. Одна из основных проблем — "gap" между современными бенчмарками и новой регуляторной терминологией, который необходимо измерить и закрыть. Целью этого исследования является создание автоматизированного подхода для качественного анализа текущих бенчмарков и их соответствия нормативным требованиям. ## Метод Разработан Bench-2-CoP — новый фреймворк, который использует систему LLM-as-judge для оценки 194,955 вопросов, взятых из широко распространенных бенчмарков, с применением таксономии EU AI Act. Основным заданием этого метода является измерение соответствия реальных сценариев рисков систематическим рискам, определенным в CoP. Основной технический подход заключается в сборе и анализе данных с бенчмарков с использованием глубокого обучения и NLP-технологий для выявления соответствия ключевых сценариев рисков и соответствия регуляторным требованиям. ## Результаты На основе Bench-2-CoP, проанализированы вопросы из 194,955 моделей представленных в актуальных бенчмарках. Определены два ключевых результата: (1) 61.6% вопросов относятся к рискам, связанным с "тенденцией к халтурингу", и 31.2% — к "нестабильности производительности", а (2) ни один вопрос не касается критических сценариев, таких как "автономное развитие" и "эволюция самостоятельного управления". Это значит, что бенчмарки не могут служить доказательством рисков, необходимым для соответствия нормативным требованиям. ## Значимость Выявленный "gap" между текущим бенчмарком и нормативным риском является критическим для создания надежного регулирования GPAI. Это демонстрирует необходимость внедрения новых методик для оценки комплексных системных рисков. Результаты могут использоваться для развития будущих оценочных инструментов, которые будут действительно отвечать нормативным требованиям ЕС, сфокусированным на рисках систем, таких как управляемость, автономность и саморепликация. Будущие исследования будут направлены на дальнейшее уточнение фреймворка и поиск решений для перекрытия этого "gap". ## Выводы Выводы Bench-2-CoP открывают новые возможности для конкретных решений рисков, связанных с GPAI. Новый подход к оценке моделей система

Annotation:

The rapid advancement of General Purpose AI (GPAI) models necessitates robust evaluation frameworks, especially with emerging regulations like the EU AI Act and its associated Code of Practice (CoP). Current AI evaluation practices depend heavily on established benchmarks, but these tools were not designed to measure the systemic risks that are the focus of the new regulatory landscape. This research addresses the urgent need to quantify this "benchmark-regulation gap." We introduce Bench-2-CoP,...

ID: 2508.05464v2 cs.AI, cs.CL

arXiv PDF

📄 TIBSTC-CoT: A Multi-Domain Instruction Dataset for Chain-of-Thought Reasoning in Language Models

2025-08-09

Авторы:

Fan Gao, Cheng Huang, Nyima Tashi, Yutong Liu, Xiangxiang Wang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Xiao Feng, Hao Wang, Yongbin Yu

Текущая доступность данных в низкоресурсных языках, таких как тибетский, ограничивает развитие моделей естественного языка в этих регионах. В статье представлен TIBSTC-CoT, разработанный как крупномасштабный, многодоменный тибетский датасет, строительство которого основывается на цепных мыслей (chain-of-thought prompting) с использованием больших лингвистических моделей. Этот датасет позволяет создавать репрезентативные ресурсы для тибетского языка, открывая возможности для развития моделей с цепной мыслью. На основе этого датасета разработана серия моделей Sunshine-thinking, которые способны выполнять цепные мысли в тибетском языке и демонстрируют стойкий результат в решении задач, близкий к лучшим многоязыковым моделям. Этот проект является важной шагу к повышению доступности AI в недостаточно изученных языках.

Annotation:

To address the severe data scarcity in Tibetan, a low-resource language spoken by over six million people, we introduce TIBSTC-CoT, the large-scale, multi-domain Tibetan dataset automatically constructed via chain-of-thought prompting with large language models (LLMs). TIBSTC-CoT establishes a scalable and reproducible framework for dataset creation in low-resource settings, covering diverse domains and reasoning patterns essential for language understanding and generation. Building on this data...

ID: 2508.01977v1 cs.CL, cs.AI

arXiv PDF

📄 Contextually Aware E-Commerce Product Question Answering using RAG

2025-08-09

Авторы:

Praveen Tangarajan, Anand A. Rajasekar, Manish Rathi, Vinay Rao Dandin, Ozan Ersoy

**Резюме** В статье предлагается контекстно ориентированный подход к решению задачи Product Question Answering (PQA) в e-commerce с использованием Retrieval Augmented Generation (RAG). Существующие системы PQA часто не учитывают контекст пользователя, такой как история общения, персональные предпочтения и региональные особенности, что приводит к неэффективности в обработке запросов. Разработанная система интегрирует данные из различных источников, включая спецификации товара, отзывы пользователей и контекстные элементы, чтобы обеспечивать персонализированные и точные ответы. Она эффективно работает с различными типами вопросов, включая объективные, субъективные и сложные запросы с несколькими намерениями. Кроме того, система может выявлять пробелы в каталоге товаров и предлагать их исправление, чтобы повысить качество содержимого. Оцениваются новые метрики для эффективной оценки RAG-систем. Этот подход демонстрирует высокую эффективность в обработке комплексных вопросов в e-commerce.

Annotation:

E-commerce product pages contain a mix of structured specifications, unstructured reviews, and contextual elements like personalized offers or regional variants. Although informative, this volume can lead to cognitive overload, making it difficult for users to quickly and accurately find the information they need. Existing Product Question Answering (PQA) systems often fail to utilize rich user context and diverse product information effectively. We propose a scalable, end-to-end framework for e...

ID: 2508.01990v1 cs.CL, I.2.7; H.3.3

arXiv PDF

📄 Prompting Large Language Models to Detect Dementia Family Caregivers

2025-08-09

Авторы:

Md Badsha Biswas, Özlem Uzuner

**Резюме** В статье рассматривается задача идентификации твитов, написанных семейными гуманными помощниками, заботившимися о близких с диагнозом деменции. Эта задача представлена в виде бинарной классификации, которая отличает твиты, где упоминается диагноз в контексте семейного члена, от остальных. Авторы предлагают решение, основанное на применении методов подсказок (prompting) для глубоких языковых моделей (LLMs). Использование небольшого количества тренировочных данных позволило использовать простую zero-shot подсказку (zero-shot prompting), которая дала лучший результат по метрике макро-F1-меры (0.95) на валидационной и тестовой выборке. Исходный код решения доступен на GitHub. Основные выводы: zero-shot prompting оказался эффективным для этой задачи, позволив достичь высокой точности с минимальными ресурсами.

Annotation:

Social media, such as Twitter, provides opportunities for caregivers of dementia patients to share their experiences and seek support for a variety of reasons. Availability of this information online also paves the way for the development of internet-based interventions in their support. However, for this purpose, tweets written by caregivers of dementia patients must first be identified. This paper demonstrates our system for the SMM4H 2025 shared task 3, which focuses on detecting tweets poste...

ID: 2508.01999v1 cs.CL, cs.LG

arXiv PDF

📄 SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents

2025-08-09

Авторы:

Changhao Jiang, Jiajun Sun, Yifei Cao, Jiabao Zhuang, Hui Li, Xiaoran Fan, Ming Zhang, Junjie Ye, Shihan Dou, Zhiheng Xi, Jingqi Tong, Yilong Wu, Baoyu Fan, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

**Резюме** В настоящее время у развивающихся Speech Role-Playing Agents (SRPAs) существуют значительные ограничения в реализации естественной и персонализированной многомодальной интеракции. Основная проблема заключается в отсутствии систематических методов оценки речевых ролевых агентов, особенно в контексте сложных реальных сценариев. Чтобы устранить этот путающий момент, авторы предлагают **SpeechRole-Data** — большой и высококачественный датасет, содержащий 98 ролей и 112 тысяч речевых диалогов с одним и многим этапом. Каждый роль характеризуется уникальными речевыми характеристиками, такими как звучание и прозоди, что позволяет создавать более высококачественные ролевые игры. Также разработан **SpeechRole-Eval** — многомерный бенчмарк для оценки SRPAs в ключевых аспектах: взаимодействия, экспрессии речи и консистентности ролевого игры. Исследования показали, что как каскадные, так и энд-то-энд модели сталкиваются с трудностями в сохранении консистентности голоса и ролевого содержания. Данные, код и модели базовой оценки открыты, чтобы обеспечить продолжение развития речевых многомодальных агентов.

Annotation:

Recently, role-playing agents have emerged as a promising paradigm for achieving personalized interaction and emotional resonance. Existing research primarily focuses on the textual modality, neglecting the critical dimension of speech in realistic interactive scenarios. In particular, there is a lack of systematic evaluation for Speech Role-Playing Agents (SRPAs). To address this gap, we construct SpeechRole-Data, a large-scale, high-quality dataset that comprises 98 diverse roles and 112k spee...

ID: 2508.02013v2 cs.CL

arXiv PDF

📄 SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models

2025-08-09

Авторы:

Wanqi Yang, Yanda Li, Yunchao Wei, Meng Fang, Ling Chen

Большие модели звука и языка (LALMs) достигли примерно человеческого уровня точности в задачах типа транскрипции и распознавания эмоций. Однако существующие оценки сконцентрированы на поверхностном восприятии, не содержат тестирования на контекстуальное и выводимое мышление при работе с речи. SpeechR — это новый бенчмарк для оценки реакции моделей на разговорную речь. Он охватывает три ключевых направления: фактическое восстановление, процедурный вывод и нормативное суждение. Тестирование проводится в трех форматах: выбор ответов, рассуждение по цепочке и анализ акцента и эмоций. Эксперименты с 11 моделями показали, что высокая точность транскрипции не означает сильных умений в выводе. SpeechR станет основой для более точного исследования моделей при разговорных и диалоговых задачах.

Annotation:

Large audio-language models (LALMs) have achieved near-human performance in sentence-level transcription and emotion recognition. However, existing evaluations focus mainly on surface-level perception, leaving the capacity of models for contextual and inference-driven reasoning in speech-based scenarios insufficiently examined. To address this gap, we introduce SpeechR, a unified benchmark for evaluating reasoning over speech in large audio-language models. SpeechR evaluates models along three k...

ID: 2508.02018v1 cs.CL, cs.AI

arXiv PDF

📄 Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time

2025-08-09

Авторы:

Huihan Li, You Chen, Siyuan Wang, Yixin He, Ninareh Mehrabi, Rahul Gupta, Xiang Ren

Большие языковые модели (LLMs) проявляют высокую эффективность в решении рассуждений, но часто страдают от падения качества при небольших изменениях входа. Это особенно заметно в Chain-of-Thought (CoT) решении, где спуражийные запоминания могут привести к ошибкам на промежуточных шагах, приводящим к неверному ответу. Для диагностики этой проблемы предлагается фреймворк STIM (Source-aware Token-level Identification of Memorization), который анализирует каждый токен рассуждения и присваивает его одной из трех категорий запоминания: локальное, среднестепенное или дальностепенное, определяясь по частоте встречаемости в корпусе предварительного тренирования. Исследования показали, что модели в трудных и редких случаях часто полагаются на локальные запоминания, что приводит к ошибкам в 67% токенов. Метрики STIM могут эффективно предсказывать неверные токены на неверных шагах. Таким образом, STIM предоставляет мощный инструмент для диагностики и улучшения логики моделей, применимость которого распространяется на другие задачи структурированного пошагового генерирования.

Annotation:

Large Language Models (LLMs) perform well on reasoning benchmarks but often fail when inputs alter slightly, raising concerns about the extent to which their success relies on memorization. This issue is especially acute in Chain-of-Thought (CoT) reasoning, where spurious memorized patterns can trigger intermediate errors that cascade into incorrect final answers. We introduce STIM, a novel framework for Source-aware Token-level Identification of Memorization, which attributes each token in a re...

ID: 2508.02037v1 cs.CL, cs.AI

arXiv PDF

📄 Marco-Voice Technical Report

2025-08-09

Авторы:

Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang

Научная статья "Marco-Voice Technical Report" предлагает многофункциональную систему генерации речи, которая объединяет в себе технологии клонирования голоса и управления эмоциями в единой структуре. Целью работы является решение проблемы достижения выразительности, контролируемости и естественности генерируемого речи, при этом сохраняя идентичность голоса и эмоции в разных языковых и эмоциональных контекстах. Авторы предлагают механизм разделения голоса и эмоции с помощью встроенного метода контрастного обучения и метод вращательной интеграции эмоциональных векторов для гладкого управления эмоцией. Для обеспечения эффективного обучения и оценки системы, разработана высококачественная эмоциональная голосовая база данных CSEMOTIONS, содержащая 10 часов мандаринского речи с шести профессиональных спикеров по восьми эмоциональным категориям. Эксперименты показали, что система Marco-Voice демонстрирует улучшения в объективных и субъективных метриках, став конкурентоспособной в области выразительной генерации речи на основе нейронных моделей.

Annotation:

This paper presents a multifunctional speech synthesis system that integrates voice cloning and emotion control speech synthesis within a unified framework. The goal of this work is to address longstanding challenges in achieving highly expressive, controllable, and natural speech generation that faithfully preserves speaker identity across diverse linguistic and emotional contexts. Our approach introduces an effective speaker-emotion disentanglement mechanism with in-batch contrastive learning,...

ID: 2508.02038v2 cs.CL, cs.SD, eess.AS

arXiv PDF

Показано 7211 - 7220 из 7506 записей