📚 Саммари научных статей из arXiv

Найдено 2054 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 M3HG: Multimodal, Multi-scale, and Multi-type Node Heterogeneous Graph for Emotion Cause Triplet Extraction in Conversations

2025-08-28

Авторы:

Qiao Liang, Ying Shen, Tiantian Chen, Lin Zhang

## Контекст В современной социальной сетевой среде значительное внимание уделяется анализу эмоциональных сюжетов и их причин в разговорных контекстах. Эмоциональный триплет — это комбинация утверждения, его эмоциональной категории и причины этой эмоции. Этот аспект важен для понимания естественного языка и может применяться в задачах анализа социальных тенденций, прогнозирования поведения и даже в сфере здравоохранения. Несмотря на важность этой задачи, существует несколько трудностей. Основной проблемой является недостаток качественных данных для обучения и тестирования алгоритмов. Большинство существующих наборов данных ограничены узкими, униформизированными сценариями разговоров, что приводит к недостатку генеральной статистики и снижает качество моделей. Мы предлагаем MECAD — первый богатый набор данных для задачи эмоционального триплета в многомодальных разговорах, содержащий 989 разговоров из 56 телесериалов. Также существующие методы эмоционального триплета недостаточно эффективно обрабатывают эмоциональные и причинные контексты, а также не учитывают семантическую информацию на разных уровнях текста. ## Метод Мы предлагаем M3HG — новую модель, которая адресует эти проблемы с помощью многомодальной графовой архитектуры. Модель имеет три основных компонента: 1) **мультимодальность** — модель обрабатывает текст, звук и изображения, 2) **мультимасштабность** — модель анализирует как индивидуальные слова, так и всю конверзацию, 3) **мультитипность** — модель различает разные типы узлов в графе, таких как утверждения, причины и эмоциональные категории. Ключевой инновацией является возможность модели учитывать как интерактивные, так и внутренние семантические связи в разговоре. Это достигается с помощью графа, который связывает узлы между собой и внутри собственного типа, обеспечивая глубокое понимание контекста. ## Результаты Мы проводили эксперименты на двух наборах данных: MECAD и SemEval-2019. Модель M3HG показала существенное превосходство по сравнению с текущими лучшими результатами. Точность выявления эмоциональных утверждений, причин и категорий увеличилась на 12% по сравнению с предыдущими моделями. В частности, M3HG показала сильные результаты в сложных сценариях, где требуется тонкое понимание эмоциональных отношений. Эти результаты подтверждают эффективность модели в обработке многомодальных данных и учете контекста. ## Значимость Модель M3HG может быть применена в различных областях, включая социальный анализ, мониторинг социальных медиа и развитие систем консультирования. Одним из преимущ

Annotation:

Emotion Cause Triplet Extraction in Multimodal Conversations (MECTEC) has recently gained significant attention in social media analysis, aiming to extract emotion utterances, cause utterances, and emotion categories simultaneously. However, the scarcity of related datasets, with only one published dataset featuring highly uniform dialogue scenarios, hinders model development in this field. To address this, we introduce MECAD, the first multimodal, multi-scenario MECTEC dataset, comprising 989 c...

ID: 2508.18740v1 cs.CL, cs.AI

arXiv PDF

📄 Harnessing Rule-Based Reinforcement Learning for Enhanced Grammatical Error Correction

2025-08-28

Авторы:

Yilin Li, Xunjian Yin, Yilin Chen, Xiaojun Wan

## Контекст Научное исследование ориентировано на область грамматической ошибкой исправления (GEC) в рамках глубокого обучения. Данная область имеет значимость в глубоком обучении, так как GEC является ключевым методом для улучшения качества текста в различных языковых моделях и приложениях. Несмотря на успехы, достигнутые традиционными методами, например, моделями с архитектурой единственного энкодера-декодера, применение ло LLM в этой области остается недооцененным. Существующие подходы, опирающиеся на подготовку к работе с последовательными данными, ограничивают мощность модулей LLM в рассуждениях и контроле. Это приводит к проблемам, таким как недостаточная точность и слабая управляемость. Задача данного исследования — развить новый подход, позволяющий лучше использовать ло LLM в текстовой коррекции, увеличив точность и реконтролируемую модель. ## Метод Предлагается новая модель, основанная на правилах и внедрении RL, для улучшения грамматического исправления. Архитектура модели предполагает использование существующих моделей LLM, но с добавлением слоя проверки правил. Метод RL используется для выбора правильных редактирований на каждом этапе обработки текста. Эта модель обучается с использованием специального датасета, предназначенного для GEC в китайском языке. Эта архитектура разработана с целью обеспечить более гибкое и управляемое исправление текста, используя мощь LLM, но с добавлением правил для регулирования процесса работы модели. ## Результаты Проведенные эксперименты были проведены на датасетах в китайском языке, которые были выбраны для тестирования модели GEC. Модель Rule-Based RL показала значительный успех, существенно повысив показатель recall по сравнению с традиционными подходами. В частности, эксперименты показали, что система Rule-Based RL существенно улучшила способность модели детектировать и исправлять сложные ошибки, что делает ее более эффективной в сфере GEC. Эти результаты доказывают, что использование RL в GEC может значительно повысить качество и управляемость модели. ## Значимость Предложенная модель имеет большое значение в различных областях, таких как обработка естественного языка, системы корректировки текста и системы перевода. Она предлагает значительные преимущества перед традиционными подходами, в том числе: 1) Улучшенная точность и реконтролируемость; 2) Точное исправление сложных ошибок, которое традиционные модели не могут выполнить; 3) Увеличение скорости работы и эффективность. Этот подход может быть использован в различных приложениях, таких как системы управления языком, текстовые реда

Annotation:

Grammatical error correction is a significant task in NLP. Traditional methods based on encoder-decoder models have achieved certain success, but the application of LLMs in this field is still underexplored. Current research predominantly relies on supervised fine-tuning to train LLMs to directly generate the corrected sentence, which limits the model's powerful reasoning ability. To address this limitation, we propose a novel framework based on Rule-Based RL. Through experiments on the Chinese ...

ID: 2508.18780v1 cs.CL, cs.AI

arXiv PDF

📄 ConfTuner: Training Large Language Models to Express Their Confidence Verbally

2025-08-28

Авторы:

Yibo Li, Miao Xiong, Jiaying Wu, Bryan Hooi

#### Контекст Large Language Models (LLMs) находят широкое применение в высокорисковых областях, таких как наука, закон и медицина, где точное выражение неопределенности крайне важно для доверия и надежности решений. Однако LLMs часто ошибаются с высокой уверенностью в своих ответах — этот эффект называется "overconfidence". Несмотря на то, что ранее были предложены методы для калибровки выраженной уверенности LLMs, они имеют ограниченную эффективность и гибкость. Мы предлагаем ConfTuner — метод, который использует простой штрафный функционал на основе Brier score и не требует дополнительных данных для обучения. #### Метод ConfTuner основан на представлении токенов в LLM-моделях. Мы предлагаем новый штрафный функционал, расширенный Brier score, который мы доказываем быть "точным" scoring rule — функционалом, который корректно выгодствует модели за корректное выражение достоверности. Обучение происходит в рамках предложенной архитектуры, не требуя дополнительных данных для калибровки. Метод применяется к различным типам рассуждений и продемонстрирован на различных моделях, включая GPT-4o. #### Результаты Мы проводим эксперименты с различными данными и задачами, включая задачи рассуждения и упражнения на самокоррекции. Улучшенная калибровка ConfTuner позволяет моделям надёжнее оценивать свою достоверность и применяться в модельных цепочках. Мы также показываем, что ConfTuner значительно улучшает калибровку LLMs на различных тестовых наборах, включая топ-LLM-модели. #### Значимость ConfTuner может быть применен в любых сценариях, где нужно доверять выраженной достоверности LLM-ответов. Он отличается широкой областью применения — от моделей самокоррекции до модельных систем для решения задач. Наши результаты показывают, что ConfTuner позволяет LLM-моделям более точно выражать свою достоверность и делать более надежные решения. #### Выводы ConfTuner доказывает, что новый подход к калибровке достоверности LLMs может быть эффективным применением для обеспечения надежности и улучшения решений. Мы планируем расширить исследования на многомодельные системы и исследовать дальнейшие способы улучшения калибровки LLMs.

Annotation:

Large Language Models (LLMs) are increasingly deployed in high-stakes domains such as science, law, and healthcare, where accurate expressions of uncertainty are essential for reliability and trust. However, current LLMs are often observed to generate incorrect answers with high confidence, a phenomenon known as "overconfidence". Recent efforts have focused on calibrating LLMs' verbalized confidence: i.e., their expressions of confidence in text form, such as "I am 80% confident that...". Existi...

ID: 2508.18847v1 cs.CL, cs.AI

arXiv PDF

📄 ReflectivePrompt: Reflective evolution in autoprompting algorithms

2025-08-28

Авторы:

Viktor N. Zhuravlev, Artur R. Khairullin, Ernest A. Dyagin, Alena N. Sitkina, Nikita I. Kulin

## Контекст Autoprompting, или автоматическое выборочное оптимизации подсказок для моделей языка, уже давно отталкивается от развития систем технологий языковых моделей. С появлением больших моделей языка (LLM), этот направленный подход к обучению стал играть важную роль в решении сложных задач, которые традиционные модели не могут подступиться. Однако, недостатки методов поиска лучших подсказок в зависимости от контекста заставляют искать более эффективные методы. Этот труд направлен на развитие методологии, которая расширяет возможности поиска оптимальных подсказок. Точнее, мы предлагаем ReflectivePrompt - метод, основанный на эволюционных алгоритмах, который включает в себя новую концепцию отражения (reflection) для улучшения точности и гибкости поиска. ## Метод ReflectivePrompt — это эволюционный подход, который использует элементы зеркального зеркала (reflection) в работе с подсказками. Основная идея заключается в том, чтобы работать с двумя уровнями отражения: короткосрочным (шорт-терм) и долгосрочным (лонг-терм). Это позволяет ReflectivePrompt накапливать знания о процессе расширения подсказок во время оптимизации. Кросс-овер и мутации, которые обычно используются в эволюционных методах, здесь поддерживаются новыми операциями отражения, которые улучшают модификации. Эти операции работают с каждой классификационной и генерирующей задачей по отдельности, что дает более точное управление задачами. Кроме того, в ReflectivePrompt включен раздел знаний, которым затем добавляются новые результаты при каждой эпохе. ## Результаты Мы проверили ReflectivePrompt на 33 различных датасетах, включающих задачи классификации и генерации текста. Мы тестировали наши результаты с открыто доступными LLM: t-lite-instruct-0.1 и gemma3-27b-it. На трех отдельных тестах по сравнению с EvoPrompt, наш метод показал улучшение на 28% в метриках на BBH датасете. Эти результаты указывают на то, что ReflectivePrompt — одна из самых эффективных реализаций эволюционных методов в рамках autoprompting. ## Значимость ReflectivePrompt может применяться в различных областях: от текстовой генерации до систем автоматического ответа. Он расширяет возможности эволюционных методов и интегрирует интуитивную парадигму отражения, что позволяет улучшить качество решений. Этот подход демонстрирует преимущество в точности и скорости, что делает его привлекательным для автоматизированных систем, где качество и быстродействие критичны. ## Выводы ReflectivePrompt показал свою эффективность в работе с LLM, подтвердив свое преимущество в сравнении с лучшими методами. Отражение (reflection) здесь играет ключевую роль в улучшении точности.

Annotation:

Autoprompting is the process of automatically selecting optimized prompts for language models, which has been gaining popularity with the rapid advancement of prompt engineering, driven by extensive research in the field of large language models (LLMs). This paper presents ReflectivePrompt - a novel autoprompting method based on evolutionary algorithms that employs a reflective evolution approach for more precise and comprehensive search of optimal prompts. ReflectivePrompt utilizes short-term a...

ID: 2508.18870v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Diverse And Private Synthetic Datasets Generation for RAG evaluation: A multi-agent framework

2025-08-28

Авторы:

Ilias Driouich, Hongliu Cao, Eoin Thomas

## Контекст Область исследования связана с технологиями реализации Retrieval-Augmented Generation (RAG), которые улучшают выводы генерирующих глубоких нейросетей за счет доступа к внешней информации. Однако, эффективность RAG-систем депендит от качества и достоверности их оценки. На данный момент, оценка RAG-систем сконцентрирована на метриках производительности, но недостаточно уделяется вниманию созданию качественных и реалистичных данных для этих целей. Это препятствует получению точных и безопасных оценок систем. Одной из ключевых проблем является нехватка данных для тестирования, которые обладали бы высокой семантической разнообразностью и соблюдали бы нормы конфиденциальности. Данная работа создает новую архитектуру, нацеленную на решение этих проблем, обеспечивая создание синтетических данных, которые подходят для эффективной оценки RAG-систем. ## Метод Разработанная методология основывается на мульти-агентной архитектуре. Для максимальной разнообразности данных используется Diversity Agent, который применяет кластеризационные техники для получения полного представления тем. Privacy Agent применяет методы маскирования данных, чтобы защитить конфиденциальную информацию в доменах, где это необходимо. QA Curation Agent строит синтетические пары вопросов-ответов, которые являются достоверным источником для тестирования RAG. Каждый агент обеспечивает конкретную функцию, но взаимодействует с другими для достижения общей цели — создания широко покрытых и защищенных данных. Разработанная система гарантирует качественные данные для эффективной оценки RAG. ## Результаты Проведены обширные эксперименты с использованием различных тестовых наборов данных. Наборы, сгенерированные с помощью мульти-агентной архитектуры, показали высокую степень диверсификации семантических данных, что улучшило результаты тестирования RAG-систем. Также, Privacy Agent существенно улучшил защиту конфиденциальных данных, достигнув высокой чувствительности к маскированию информации в различных доменах. Эти результаты показали, что синтетические данные лучше соответствуют реальным условиям оценки RAG-систем, чем те, которые использовались в базовых методах. Это позволило улучшить качество оценки и сделать ее более надежной. ## Значимость Синтетические данные, созданные данным подходом, могут быть использованы в различных областях, включая медицину, финансы и другие сферы, где защита конфиденциальной информации критически важна. Основные преимущества этого подхода заключаются в более точной и достоверной оценке RAG-систем, так как он учитывает реальные внешние фак

Annotation:

Retrieval-augmented generation (RAG) systems improve large language model outputs by incorporating external knowledge, enabling more informed and context-aware responses. However, the effectiveness and trustworthiness of these systems critically depends on how they are evaluated, particularly on whether the evaluation process captures real-world constraints like protecting sensitive information. While current evaluation efforts for RAG systems have primarily focused on the development of perform...

ID: 2508.18929v1 cs.CL, cs.AI

arXiv PDF

📄 Interpretable by AI Mother Tongue: Native Symbolic Reasoning in Neural Models

2025-08-28

Авторы:

Hung Ming Liu

## Контекст Одним из главных задач в области искусственного интеллекта является создание моделей, способных проводить интуитивное логическое обоснование задач. Несмотря на прогресс в нейросетевых моделях, существуют проблемы с их транспарентностью и удовлетворительным оправданием решений. Многие модели используют непонятные для людей выводы, что снижает доверие к ним. Необходимая модель должна обладать транспарентными способами обоснования, чтобы обеспечить лучшую взаимосвязь с пользователями и повысить надежность решений. ## Метод Мы предлагаем фреймворк, где нейросетевые модели развивают AI Mother Tongue — собственный символический язык, который позволяет проводить интуитивное логическое обоснование. Данный язык поддерживает не только четкость и понятность в выводах, но и способность работы с несколькими слоями значений и удобную интеграцию в нейронные модели. Метод использует подход с интегрированной тренировкой для повышения чистоты символов и спаривания решений, а также стратегию последовательной специализации, начиная с общего понимания, а затем уточняя уровень интуитивных оценок. ## Результаты В экспериментах на разных задачах, таких как логические упражнения и задачи классификации, AI Mother Tongue показала свою эффективность. Наблюдалось высокое уровне детерминированности в выводах, что позволяло легко проверить и понять их. Модель не только демонстрировала высокую точность решения задач, но также предоставляла интерпретируемые символы и пути решения, что повысило уверенность в ее моделировании. ## Значимость Фреймворк может быть применен в различных областях, таких как медицина, юриспруденция, финансы, где важно объяснять решения. Этот подход не только повышает транспарентность и интуитивность, но и обеспечивает гибкость действий моделей в сложных задачах. Основное преимущество — возможность понятного объяснения решений, что может способствовать повышению доверия к модели и лучшей принятию решений. ## Выводы Мы доказали, что AI Mother Tongue может стать ключевым элементом для создания интуитивных и транспарентных нейронных моделей. Ранее не было подобных подходов, которые были бы так же эффективны в объединении транспарентности, интуитивности и символического моделирования. Мы планируем продолжить исследования в этой области, устанавливая новые цели для улучшения моделей и их применения в реальной жизни.

Annotation:

We present a framework where neural models develop an AI Mother Tongue, a native symbolic language that simultaneously supports intuitive reasoning, compositional symbol chains, and inherent interpretability. Unlike post-hoc explanation methods, our approach embeds reasoning directly into the model's representations: symbols capture meaningful semantic patterns, chains trace decision paths, and gated induction mechanisms guide selective focus, yielding transparent yet flexible reasoning. We intr...

ID: 2508.18988v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Automatic Prompt Optimization with Prompt Distillation

2025-08-28

Авторы:

Viktor N. Zhuravlev, Artur R. Khairullin, Ernest A. Dyagin, Alena N. Sitkina, Nikita I. Kulin

## Контекст Современная информатика сталкивается с вопросами улучшения качества работы языковых моделей (LLMs), которые являются ключевым инструментом в машинном обучении и многих приложениях, таких как синтез речи, генерация текста и представление знаний. Одна из наиболее актуальных проблем является автоматическая оптимизация триггеров (prompts) для языковых моделей. Достоверные и эффективные триггеры являются критически важными для повышения точности и надежности моделей в решении задач NLP. Несмотря на развитие методов, включая градиентные подходы и методы без градиентов, существуют значительные ограничения в сфере эффективности и универсальности существующих алгоритмов. Мотивация для разработки DistillPrompt постулируется тем, что текущие решения часто либо недостаточно эффективны, либо требуют объемных вычислений, что не приемлемо для работы на больших объемах данных. ## Метод DistillPrompt представляет собой инновационный подход к автоматической оптимизации триггеров, основанный на многоэтапном интегрировании задач-специфической информации в процесс тренировки моделей. Основываясь на технологиях дистилляции, сжатия и агрегации, метод позволяет проводить более глубокую исследовательскую работу в пространстве триггеров. Используются любительские языковые модели, оснащенные слоями сжатия, которые позволяют получать более точные и оптимальные триггеры. Эта архитектура включает множество этапов обучения, при этом каждый этап производится с учетом конкретной задачи, что дает значительные выгоды в точности и универсальности решений. ## Результаты В ходе экспериментов DistillPrompt был протестирован на различных датасетах с обучением на текстах, включая задачи текстового классификации и генерации. Используемая модель — t-lite-instruct-0.1. Результаты показали существенное улучшение ключевых метрик по сравнению с существующими методами. Например, продемонстрировано 20.12% увеличение точности в целом датасете относительно Grips в задачах текстового классификации. Эти результаты подтверждают эффективность DistillPrompt в контексте неградиентных подходов к оптимизации триггеров. ## Значимость Разработанный подход имеет широкие перспективы применения в области NLP, включая текстовую генерацию, классификацию и анализ отзывов. Он предоставляет значительные преимущества по сравнению с другими методами, включая улучшенную эффективность, простоту реализации и универсальность применения. Это может способствовать развитию более точных и надежных языковых моделей, а также повлиять на развити

Annotation:

Autoprompting is the process of automatically selecting optimized prompts for language models, which is gaining popularity due to the rapid development of prompt engineering driven by extensive research in the field of large language models (LLMs). This paper presents DistillPrompt -- a novel autoprompting method based on large language models that employs a multi-stage integration of task-specific information into prompts using training data. DistillPrompt utilizes distillation, compression, an...

ID: 2508.18992v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 HiPlan: Hierarchical Planning for LLM-Based Agents with Adaptive Global-Local Guidance

2025-08-28

Авторы:

Ziyue Li, Yuan Chang, Gaihong Yu, Xiaoqiu Le

## Контекст Современные large language model (LLM)-based agents показали себя в ситуациях решения задач управления и принятия решений, однако сталкиваются с значительными ограничениями при работе с задачами, требующими долгосрочного планирования. Основная причина этому является отсутствие гибкой и адаптивной структуры планирования, что приводит к неточности действий и неустойчивости в динамичных средах. Это ставит перед исследователями задачу создания более устойчивых и эффективных методов для поддержки сложных задач, где недостаточно простого следования предыдущим действиям. Особенно актуальным становится этот вопрос в сферах, где необходимо сбалансированное сочетание широкомасштабного планирования и точного этапного контроля. ## Метод HiPlan представляет собой инновационную архитектуру, основанную на декомпозиции задач на два уровня: глобальное (макроскопическое) и локальное (микроскопическое) управление. Общая стратегия развития задачи разбивается на "мильтоны" — ключевые моменты, призванные гармонично ориентировать агента. Этот подход позволяет создавать индивидуальные маршруты, ориентируясь на полученные экспертные данные. В ходе выполнения задачи HiPlan использует динамический траекториальный подход: из предыдущих успешных прохождений выбираются паттерны, которые адаптируются в реальном времени для поддержки текущих действий. Это позволяет корректировать ход выполнения и наладить постоянную связь с целевыми объектами. ## Результаты Испытания HiPlan проводились на двух затруднительных бенчмарках, где он показал значительное превосходство перед соревнователями. Оптимизация мильтонов и эффективный механизм адаптации прикладывались к повышению эффективности и стабильности решений. Эксперименты подтверждают, что HiPlan не только улучшает точность решений, но и устойчивость в сложных и непредсказуемых средах. Анализ методов показал, что каждая часть HiPlan — глобальное и локальное управление — сплошь взаимодействуют, внося собственные пользы в общий результат. ## Значимость Предлагаемый подход может применяться в различных областях, таких как управление роботами, логистика, игровой индустрия и даже в сфере самообучающихся систем. Значительным преимуществом HiPlan является его возможность адаптироваться к динамическим условиям и непредсказуемости систем. Это делает его ценным для сценариев, где необходимо не только достичь цели, но и сохранить высокую производительность в условиях неопределенности. ## Выводы Разработанный HiPlan является прорывом в области длительного планирования для LLM-based agents. Он эффективно решает проблем

Annotation:

Large language model (LLM)-based agents have demonstrated remarkable capabilities in decision-making tasks, but struggle significantly with complex, long-horizon planning scenarios. This arises from their lack of macroscopic guidance, causing disorientation and failures in complex tasks, as well as insufficient continuous oversight during execution, rendering them unresponsive to environmental changes and prone to deviations. To tackle these challenges, we introduce HiPlan, a hierarchical planni...

ID: 2508.19076v1 cs.CL, cs.AI

arXiv PDF

📄 VibeVoice Technical Report

2025-08-28

Авторы:

Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei

## Контекст В современной генеративной моделировании сложной аудио-информации существует ряд проблем, связанных с ограничениями в обработке длинных потоков звука, поддержки множественных голосов и сохранением высокой фидлити. Многие модели существуют в виде оптимизации пространственного и временного контекста, что приводит к ограниченному буферу для обработки длинных аудио-потоков. Также, отсутствие универсального подхода к моделированию сочетания фидлити, множественных голосов и длинных сессий затрудняет создание реалистичных моделей для потокового подкастов, диалогов и многоголосых сценариев. Из этой мотивации возникла потребность в разработке модели, которая могла бы синтезировать длинные сеансы речевого потока с несколькими голосами, сохраняя высокое качество синтеза звука и обеспечивая высокую эффективность вычислений. ## Метод VibeVoice представляет собой новый подход к моделированию длинного речевого потока при помощи метода **next-token diffusion**. Этот подход представляет собой авторегрессивный процесс, который синтезирует длинные аудио-потоки путем последовательной генерации разностных сэмплов (latent vectors), которые последовательно кодируются и декодируются. Модель включает в себя **новую контекстно-зависимую архитектуру**, которая может обрабатывать длинные потоки звука в реальном времени. Для того, чтобы эффективно закодировать длинные аудио-потоки, VibeVoice использует **продолжительное звуковое токенизаторное решение**, которое позволяет сократить объем данных на **80 раз**, но при этом сохраняет высокую фидлити. Это решение позволяет VibeVoice обрабатывать длинные диалоги и многоголосые сценарии без потери качества. ## Результаты VibeVoice протестирована на высококачественных данных, включающих диалоги, многоголосые сценарии и многочасовые потоки речи. Основные результаты показали, что модель может синтезировать речь с **до 90 минут** длиной (в буфере 64K), что значительно превышает ограничения других моделей. Эксперименты показали, что VibeVoice **выдает более высокое качество звука** и **заметно намного лучше поддерживает многоголосую синтезированную речь**. Модель была проверена на многоголосых сценариях, в том числе в диалогах, и показала способность сохранять **контекстный тон, звучание и интонацию** для каждого голоса, даже при длительных сценариях. ## Значимость VibeVoice может быть применена в различных сферах, включая **создание живых диалогов**, **потоковые аудио-контент**, **мультиголосые руководства по обучению** и **аудио-синтез для новостных потоков**. Модель обеспечивает **высокую эффективность вычислений**, что делает ее привлекательной для моб

Annotation:

This report presents VibeVoice, a novel model designed to synthesize long-form speech with multiple speakers by employing next-token diffusion, which is a unified method for modeling continuous data by autoregressively generating latent vectors via diffusion. To enable this, we introduce a novel continuous speech tokenizer that, when compared to the popular Encodec model, improves data compression by 80 times while maintaining comparable performance. The tokenizer effectively preserves audio fid...

ID: 2508.19205v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Generative Interfaces for Language Models

2025-08-28

Авторы:

Jiaqi Chen, Yanzhe Zhang, Yutong Zhang, Yijia Shao, Diyi Yang

## Контекст Large language models (LLMs) видятся не только как мощные инструменты для обработки естественного языка, но и как специализированные помощники, способные упростить процесс решения разнообразных задач. Однако, существующие системы часто ограничены линейным форматом общения в виде запросов и ответов, что может сделать интерактивные задачи, особенно те, которые требуют многократного обмена информацией, менее эффективными. Мы предлагаем Generative Interfaces for Language Models, новую парадигму, в которой LLMs не только отвечают на запросы, но и активно создают пользовательские интерфейсы (UI), позволяющие более эффективно интерактивно работать с задачами. ## Метод Мы предлагаем новую архитектуру Generative Interfaces for Language Models, которая использует структурированные представления интерфейсов, специфичные для каждой задачи, и итеративные рефинаменты. Модель преобразует пользовательский запрос в задачу, а затем адаптирует пользовательский интерфейс для поддержки эффективного решения. Мы также разработали многомерный фреймворк для оценки, который позволяет сравнивать generative и conversational interfaces по функциональным, интерактивным и эмоциональным критериям. Это позволяет оценить качество работы модели в разных сценариях и для разных типов задач. ## Результаты Мы проводили эксперименты с LLMs на различных задачах, включая те, которые требуют многократного обмена информацией и поддержки интерактивности. Мы сравнивали generative и conversational interfaces по данным, полученным от пользователей. Результаты показали, что generative interfaces не только выполняют задачи быстрее, но и пользователи предпочитают их в более чем 70% случаев. Эти результаты демонстрируют потенциал generative interfaces в улучшении человеко-компьютерных взаимодействий. ## Значимость Generative Interfaces for Language Models могут быть применены в различных сферах, включая консультирование, анализ данных, и конструирование программного обеспечения. Они предлагают более эффективное и интерактивное взаимодействие с большими моделями языка, улучшая как качество решения задач, так и пользовательский опыт. Этот подход может иметь значительное влияние на развитие human-AI interaction, в том числе в области сложных интерактивных задач. ## Выводы Мы установили, что generative interfaces представляют собой эффективный подход к улучшению взаимодействия с большими моделями языка. Наши результаты показывают, что люди предпочитают их в сложных задачах, и мы планируем дальнейшие исследования для того, чтобы улучшить их эффективность и применимость в различных сферах применения.

Annotation:

Large language models (LLMs) are increasingly seen as assistants, copilots, and consultants, capable of supporting a wide range of tasks through natural conversation. However, most systems remain constrained by a linear request-response format that often makes interactions inefficient in multi-turn, information-dense, and exploratory tasks. To address these limitations, we propose Generative Interfaces for Language Models, a paradigm in which LLMs respond to user queries by proactively generatin...

ID: 2508.19227v1 cs.CL, cs.AI, cs.HC

arXiv PDF

1
2
171
172
173
174
175
205
206

Показано 1721 - 1730 из 2054 записей