📚 Саммари научных статей из arXiv

Найдено 19 результатов по запросу 'cs.AI, cs.SD, eess.AS' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Real-world Music Plagiarism Detection With Music Segment Transcription System

2025-09-12

Авторы:

Seonghyeon Go

#### Контекст В последние годы технологии Music Information Retrieval (MIR) позволили существенно расширить возможности генерирования и распространения музыкальных произведений. Однако это также привело к усилению интереса к защите интеллектуальной собственности в музыкальной сфере. Несанкционированное использование музыкальных произведений, или плагиат, является частым явлением, требующим эффективных методов обнаружения. Исследование предлагаемое в работе посвящено созданию системы, которая бы способствовала выявлению плагиата с помощью технологий MIR. Основной целью является разработка системы, которая могла бы оценивать степень плагиата в различных музыкальных форматах, обеспечивая точность и эффективность в анализе. #### Метод Проектирование системы было основано на комбинации нескольких технологий MIR. Начальным этапом было использование алгоритмов распознавания звука, которые позволяют извлекать музыкальные фрагменты из аудиозаписей. Для каждого из этих фрагментов выделялись музыкально значимые особенности, такие как ритм, гамма, тембр и темп. Далее эти признаки обрабатывались с помощью машинного обучения, чтобы вычислить соответствующие сходства между фрагментами. Архитектура системы включала несколько модулей: систему извлечения признаков, модель сравнения признаков и систему вывода результатов. Это позволило достичь высокой точности в определении степени плагиата. #### Результаты В ходе экспериментов была проверена система на различных музыкальных примерах, включая разные форматы и жанры. Для вычисления сходства были использованы оценки, полученные на основе нескольких музыкальных признаков, включая ритм, гамму и темп. Эксперименты показали, что система успешно отличает случаи плагиата от легитимных похожих фрагментов. Оценка точности показала, что система достигла высокого уровня точности в обнаружении плагиата, даже при рассмотрении различных музыкальных форматов и стилей. #### Значимость Предложенная система имеет широкий потенциал для применения в реальных музыкальных сценариях. Она может быть использована для защиты авторских прав в музыкальной индустрии, а также для анализа и оценки музыкальных творчеств. Благодаря своей мощности, система может помочь в поиске заимствований или нарушений авторских прав. Одним из важных дополнений к этому исследованию является создание датасета Similar Music Pair (SMP), который может быть использован в будущих исследованиях по сравнению музыкальных произведений. Это дает ценную возможность для дальнейших исследований в области музыкальной схожести. #### Выво

Annotation:

As a result of continuous advances in Music Information Retrieval (MIR) technology, generating and distributing music has become more diverse and accessible. In this context, interest in music intellectual property protection is increasing to safeguard individual music copyrights. In this work, we propose a system for detecting music plagiarism by combining various MIR technologies. We developed a music segment transcription system that extracts musically meaningful segments from audio recording...

ID: 2509.08282v1 cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Exploring Situated Stabilities of a Rhythm Generation System through Variational Cross-Examination

2025-09-09

Авторы:

Błażej Kotowski, Nicholas Evans, Behzad Haki, Frederic Font, Sergi Jordà

## Контекст Предлагаемая работа изучает GrooveTransformer, реального времени систему генерации ритма, с помощью фреймворка Феноменологического Вариационного Разведения (Variational Cross-Examination, VCE). Она опирается на ее развертывание в трех разных искусственных контекстах. Эти контексты позволяют выделить три стабильных режима использования: автоматический поддерживающий драммашин, систему управления ритмом в формате Eurorack, и драйвер ритма для гармонической аккомпанементной системы. Несмотря на то, что многофункциональность не была преднамеренной целью проекта, появление этой многосторонности породило вопросы: как это произошло? VCE помогает выявить три основные факторы этой многосторонности: свойства системных неизменяемостей, междисциплинарное сотрудничество, и ситуатность ее развития. Таким образом, работа позволяет раскрыть новые возможности VCE в описании и анализе цифровых музыкальных инструментов (DMI), сфокусировавшись на том, как технологии взаимодействуют, контролируются и взаимообразуются с пользователями и контекстами. ## Метод Методология исследования основывается на фреймворке Variational Cross-Examination (VCE), который представляет собой постфеноменологический подход к расследованию цифровых музыкальных инструментов. Он рассматривает системы технического проектирования не только как функциональные объекты, но и как технологические предметы, которые взаимодействуют с пользователями и контекстами. В работе проводится анализ GrooveTransformer с помощью трех различных применений. Технические решения включают разработку системы, использования методов управления ритмом, а также анализ управления и динамического создания ритма. Архитектура GrooveTransformer включает нейросетевые модели, работающие в реальном времени для генерации ритмов в различных контекстах. Это позволяет рассмотреть многообразие применений и их стабильности в разных условиях. ## Результаты Результаты исследования показали, что GrooveTransformer может функционировать как автономная ритм-машина, контролирующая аккомпанемент, так и как инструмент для генерации ритма в системах Eurorack. Эти режимы были выявлены во время анализа его применения в трех разных искусственных контекстах. Также были выявлены системные неизменяемости, которые позволяют системе гибко адаптироваться к различным сценариям. Эксперименты показали, что GrooveTransformer может быть использован как развивающийся DMI, имеющий значительное потенциальное влияние на генерацию ритма в различных музыкальных стилях и контекстах. Данные результаты подтверждают эффективность VCE в том, чтобы выявить и изучить многосторонние применения DMI. ## Значи

Annotation:

This paper investigates GrooveTransformer, a real-time rhythm generation system, through the postphenomenological framework of Variational Cross-Examination (VCE). By reflecting on its deployment across three distinct artistic contexts, we identify three stabilities: an autonomous drum accompaniment generator, a rhythmic control voltage sequencer in Eurorack format, and a rhythm driver for a harmonic accompaniment system. The versatility of its applications was not an explicit goal from the outs...

ID: 2509.05145v1 cs.HC, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 The Sound of Risk: A Multimodal Physics-Informed Acoustic Model for Forecasting Market Volatility and Enhancing Market Interpretability

2025-08-28

Авторы:

Xiaoliang Chen, Xin Yu, Le Chang, Teng Jing, Jiashuai He, Ze Wang, Yangjun Luo, Xingyu Chen, Jiayue Liang, Yuchen Wang, Jiaying Xie

## Контекст Информационные ассимметрии на финансовых рынках часто усиливаются стратегически выстроенными корпоративными нарративами, что снижает эффективность традиционных текстовых анализов. В этой статье предлагается новый многомодальный подход для оценки финансового риска, который объединяет текстовую чувственность с паралингвистическими признаками, полученными из динамики голосовых складок экзекутивного штаба на заседаниях по выручке. Основой этого подхода является Физико-Информированная Акустическая Модель (PIAM), которая использует нелинейную акустику для отделения семантических признаков из RAW звуковых данных, подвергнутых деформациям, таким как сигнальное срезание. Данный подход позволяет детально изучать эмоциональную статистику и риск на финансовых рынках. ## Метод Многомодальная модель использует текстовую чувственность из текстов докладов и паралингвистические признаки из звуковых сигналов. Звуковые сигналы анализируются с помощью PIAM, которая применяет нелинейную акустику для извлечения эмоциональных признаков. Результаты анализа проектируются в пространство Affective State Label (ASL), состоящее из трех измерений: Tension (напряженность), Stability (стабильность) и Arousal (возбужденность). Эти признаки используются для оценки синхронных динамик в эмоциональном состоянии экзекутивного штаба. Данные были получены из 1 795 вызовов по выручке, объемом примерно 1 800 часов. ## Результаты Эксперименты показали, что риск на финансовых рынках может быть эффективно определен с помощью звуковых сигналов, а не только на основе текстовых данных. Многомодальная модель позиционируется как более точная в предсказании риска на рынке, чем модели, основанные только на тексте. Особое внимание уделено измерению уровня уверенности в эмоциональной динамике, в частности, отличительным признаком является возбуждение, вызванное переходом от скриптованного доклада к неорганизованному обмену во время Q&A секции. Было показано, что модель демонстрирует значительное превосходство над моделью, основанной только на финансовых данных. ## Значимость Этот подход может быть применен в системах мониторинга рынков, финансовом анализе и понимании рыночных динамик. Он предлагает преимущества в улучшении возможностей прогнозирования и риск-менеджмента. Кроме того, предложенный подход может иметь влияние на регулирование финансовых рынков и повышение уровня прозрачности. ## Выводы Выводы основываются на предложенной многомодальной модели, которая демонстрирует преимущества в прогнозировании финансового риска, опираясь на эмо

Annotation:

Information asymmetry in financial markets, often amplified by strategically crafted corporate narratives, undermines the effectiveness of conventional textual analysis. We propose a novel multimodal framework for financial risk assessment that integrates textual sentiment with paralinguistic cues derived from executive vocal tract dynamics in earnings calls. Central to this framework is the Physics-Informed Acoustic Model (PIAM), which applies nonlinear acoustics to robustly extract emotional s...

ID: 2508.18653v1 cs.LG, cs.AI, cs.SD, eess.AS, 62P05, 68T0, I.2.7; J.4

arXiv PDF

📄 VibeVoice Technical Report

2025-08-28

Авторы:

Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei

## Контекст В современной генеративной моделировании сложной аудио-информации существует ряд проблем, связанных с ограничениями в обработке длинных потоков звука, поддержки множественных голосов и сохранением высокой фидлити. Многие модели существуют в виде оптимизации пространственного и временного контекста, что приводит к ограниченному буферу для обработки длинных аудио-потоков. Также, отсутствие универсального подхода к моделированию сочетания фидлити, множественных голосов и длинных сессий затрудняет создание реалистичных моделей для потокового подкастов, диалогов и многоголосых сценариев. Из этой мотивации возникла потребность в разработке модели, которая могла бы синтезировать длинные сеансы речевого потока с несколькими голосами, сохраняя высокое качество синтеза звука и обеспечивая высокую эффективность вычислений. ## Метод VibeVoice представляет собой новый подход к моделированию длинного речевого потока при помощи метода **next-token diffusion**. Этот подход представляет собой авторегрессивный процесс, который синтезирует длинные аудио-потоки путем последовательной генерации разностных сэмплов (latent vectors), которые последовательно кодируются и декодируются. Модель включает в себя **новую контекстно-зависимую архитектуру**, которая может обрабатывать длинные потоки звука в реальном времени. Для того, чтобы эффективно закодировать длинные аудио-потоки, VibeVoice использует **продолжительное звуковое токенизаторное решение**, которое позволяет сократить объем данных на **80 раз**, но при этом сохраняет высокую фидлити. Это решение позволяет VibeVoice обрабатывать длинные диалоги и многоголосые сценарии без потери качества. ## Результаты VibeVoice протестирована на высококачественных данных, включающих диалоги, многоголосые сценарии и многочасовые потоки речи. Основные результаты показали, что модель может синтезировать речь с **до 90 минут** длиной (в буфере 64K), что значительно превышает ограничения других моделей. Эксперименты показали, что VibeVoice **выдает более высокое качество звука** и **заметно намного лучше поддерживает многоголосую синтезированную речь**. Модель была проверена на многоголосых сценариях, в том числе в диалогах, и показала способность сохранять **контекстный тон, звучание и интонацию** для каждого голоса, даже при длительных сценариях. ## Значимость VibeVoice может быть применена в различных сферах, включая **создание живых диалогов**, **потоковые аудио-контент**, **мультиголосые руководства по обучению** и **аудио-синтез для новостных потоков**. Модель обеспечивает **высокую эффективность вычислений**, что делает ее привлекательной для моб

Annotation:

This report presents VibeVoice, a novel model designed to synthesize long-form speech with multiple speakers by employing next-token diffusion, which is a unified method for modeling continuous data by autoregressively generating latent vectors via diffusion. To enable this, we introduce a novel continuous speech tokenizer that, when compared to the popular Encodec model, improves data compression by 80 times while maintaining comparable performance. The tokenizer effectively preserves audio fid...

ID: 2508.19205v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 MGSC: A Multi-granularity Consistency Framework for Robust End-to-end Asr

2025-08-25

Авторы:

Xuwen Yang

## Контекст Задача распознавания речи (ASR) является ключевым вопросом в области обработки естественного языка и искусственного интеллекта. За последние годы end-to-end ASR модели показали свою эффективность в решении этой задачи, особенно на тренировочных данных. Однако, эти модели чувствительны к шуму и помехам во время работы. Это приводит к катастрофическим ошибкам в семантическом плане, которые могут серьезно снизить качество распознавания. Основная причина этого слабости моделей заключается в том, что они оптимизируются только для минимизации ошибок в конечном выходном результате, не учитывая внутреннюю консистентность процесса вычислений модели. Это делает их нестабильными в условиях реального мира, где шум и помехи типичны. Ранее предложенные решения, такие как методы грубой фильтрации или дополнительных уровней регуляризации, не удалось значительно улучшить устойчивость моделей. Мотивовано этим, в данной работе предлагается новое решение, нацеленное на улучшение внутренней консистентности ASR моделей через многоуровневую регуляризацию. ## Метод Методология предложенного подхода, названного MGSC (Multi-Granularity Soft Consistency), основывается на многоуровневой регуляризации, которая адресует две разные гранулярности консистентности: макро-уровень (семантический контекст) и микро-уровень (токен-уровень). Макро-уровень регуляризации реализует самоудовлетворяющую структуру данных, при которой выход модели должен соответствовать логическому потоку смысла в тексте. Микро-уровень регуляризации фокусируется на том, чтобы токены в выходном потоке тщательно соответствовали словарным единицам и методам раскрытия слова. Технически, MGSC представляет собой модель-агностичный модуль, который может быть интегрирован с любыми end-to-end ASR моделями. Он внедряет дополнительные функциональные ограничения в процесс обучения, чтобы модель не только правильно предсказывала выход, но и сохраняла консистентность во всех слоях вычислительного процесса. Это позволяет уменьшить ошибки, которые могут возникать из-за невязок между семантическим контекстом и токенным раскрытием. ## Результаты На ходу проведены ряд экспериментов на широко известной ASR датасете, представляющем собой звуковые фрагменты с их текстовыми обозначениями. Модель, воспользовавшись MGSC фреймворком, была сравнена с другими методами регуляризации. Результаты показали, что MGSC существенно уменьшает Character Error Rate (CER) в условиях шумового окружения, снижая его на 8.7% по отношению к базовой модели. Это связано с тому, что MGSC не только уменьшает частоту смысловых ошибок, но и улучшает

Annotation:

End-to-end ASR models, despite their success on benchmarks, often pro-duce catastrophic semantic errors in noisy environments. We attribute this fragility to the prevailing 'direct mapping' objective, which solely penalizes final output errors while leaving the model's internal computational pro-cess unconstrained. To address this, we introduce the Multi-Granularity Soft Consistency (MGSC) framework, a model-agnostic, plug-and-play module that enforces internal self-consistency by simultaneously...

ID: 2508.15853v1 cs.CL, cs.AI, cs.SD, eess.AS, I.2.7

arXiv PDF

📄 MCP2OSC: Parametric Control by Natural Language

2025-08-16

Авторы:

Yuan-Yi Fan

#### Контекст Процессы создания контента в мультимедиа становятся все более интерактивными, но требуют значительных усилий для достижения высокой точности при выполнении комплексных задач. Текстовые запросы позволяют легко задавать потребности, но часто не обеспечивают достаточной точности. Альтернативой — сложные системы управления с помощью нобсов или ползунков, которые требуют большого количества знаний и ресурсов. Это создает затруднения в поиске баланса между простотой и точностью. Целью данного исследования является разработка системы, которая бы способствовала более эффективному сочетанию текстовых запросов и точных настроек, с помощью нового протокола MCP (Model Context Protocol). #### Метод Для решения этой проблемы предлагается использовать новый протокол MCP (Model Context Protocol), который позволяет использовать текстовые запросы для управления OSC (OpenSoundControl) системами. Эта система включает в себя MCP2OSC-сервер и новые критерии для разработки текстовых запросов. Основная методика заключается в комбинировании мощи значительного языкового модели (LLM) с функциональностью сервера для преобразования естественного языка в OSC-сообщения. Использованы 14 практических примеров с запросами и шаблонами текстовых запросов, что позволило проверить эффективность системы в различных сценариях использования. #### Результаты Испытания показали, что Claude (LLM), сконфигурированный с MCP2OSC-сервером, позволяет легко и эффективно управлять OSC-системами с помощью естественного языка. Эта система может искать, валидировать, интерпретировать, дебажить, и визуализировать OSC-сообщения, а также управлять OSC-адресами. Отдельно подчеркнут высокий уровень точности и простоту взаимодействия, которые данная система предоставляет. Эксперименты подтверждают, что MCP2OSC можно использовать для решения ключевых задач в разработке OSC-систем, достигая точности и комфорта. #### Значимость Предлагаемая система может быть применена в различных областях, включая звуковую и визуальную синтез, робототехнику, интерактивные инсталляции, и другие системы, требующие точного управления. Основные преимущества заключаются в упрощении процессов управления, увеличении точности, и возможности комбинирования текстовых запросов с точным техническим контролем. Будущие исследования могут сфокусироваться на расширении функциональности MCP2OSC, внедрении в различные мультимедийные системы, и развитии дополнительных критериев текстовых запросов. #### Выводы Разработанная система MCP2OSC представляет собой новую модель сов

Annotation:

Text prompts enable intuitive content creation but may fall short in achieving high precision for intricate tasks; knob or slider controls offer precise adjustments at the cost of increased complexity. To address the gap between knobs and prompts, a new MCP (Model Context Protocol) server and a unique set of prompt design criteria are presented to enable exploring parametric OSC (OpenSoundControl) control by natural language prompts. Demonstrated by 14 practical QA examples with best practices a...

ID: 2508.10414v1 cs.HC, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Dual Information Speech Language Models for Emotional Conversations

2025-08-13

Авторы:

Chun Wang, Chenyang Liu, Wenze Xu, Weihong Deng

## Контекст Говорящие системы, основанные на текстовых больших лингвистических моделях (LLMs), часто пропускают паралингвистические сигналы, которые играют ключевую роль в понимании эмоций и намерений. Для решения этой проблемы появились модели речи-языка (SLMs), которые используют записи речи в качестве входных данных. Однако существующие SLMs, разработанные на основе замороженных LLMs, сталкиваются с ограниченным пониманием контекста и неэффективным извлечением паралингвистических сигналов. Основные проблемы включают конфузированность информации и неудачные стратегии обучения. Модели, которые не могут эффективно различать лингвистическую и паралингвистическую информацию, не могут предоставить богатый контекст для понимания эмоций и намерений. Наша цель — создать модель, которая избавится от этих проблем и позволит SLM эффективно интегрировать обе сферы информации в контексте диалога. ## Метод Мы предлагаем двухадаптеровую модель, которая разделяет паралингвистическую и лингвистическую информацию на отдельных уровнях. Одна адаптера отвечает за паралингвистические сигналы (например, тональность, интонация), а другая — за лингвистические (семантику и лексику). Мы также предлагаем непрерывное слабо направленное обучение, которое позволяет модели учиться сохранять контекст, не забывая о паралингвистических сигналах. Модель обучается на существующих общих данных, используя только адаптеры для изменения представлений слов, что делает ее эффективной в плане параметров и используемых данных. За основу этой модели мы берем уже существующие LLM, но изменяем его поведение через адаптивные слои, которые обрабатывают паралингвистическую информацию раздельно от лингвистической. ## Результаты Мы проверили нашу модель на задачах распознавания эмоций в разговорах. Для обучения использовались данные, содержащие как текстовую, так и аудио-информацию. Наши эксперименты показали, что модель Dual Information Speech Language Model (DISLM) превосходит существующие SLM-модели по метрикам, таким как F1-score и accuracy. Дискурсные сигналы, такие как звучание, тональность и интонация, были эффективно интегрированы в лингвистическую модель, что повлияло на качество понимания эмоций. Модель также показала высокую точность в задачах классификации эмоций и демонстрирует улучшенную способность понимать контекст в разговорах. ## Значимость Наша модель имеет широкие области применения, в том числе в системах консультирования, сервисных роботах, системах контроля качества звонков и в разработке интеллектуальных ассистентов. Особым

Annotation:

Conversational systems relying on text-based large language models (LLMs) often overlook paralinguistic cues, essential for understanding emotions and intentions. Speech-language models (SLMs), which use speech as input, are emerging as a promising solution. However, SLMs built by extending frozen LLMs struggle to capture paralinguistic information and exhibit reduced context understanding. We identify entangled information and improper training strategies as key issues. To address these issues,...

ID: 2508.08095v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Enhancing Dialogue Annotation with Speaker Characteristics Leveraging a Frozen LLM

2025-08-09

Авторы:

Thomas Thebaud, Yen-Ju Lu, Matthew Wiesner, Peter Viechnicki, Najim Dehak

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах диалоговой транскрипции широко используются технологии обработки естественного языка, в том числе Большие Языковые Модели (Large Language Models, LLMs). Они применяются для улучшения грамматики, пунктуации и читаемости транскриптов. Однако, несмотря на высокую эффективность, существует ряд проблем, связанных с дополнительной обработкой диалоговых данных. Одной из таких проблем является нехватка контекстуальной информации о говорящих, такой как их возраст, пол, эмоциональное состояние и другие характеристики. Данные метаданные могут значительно обогатить транскрипты, облегчить анализ и улучшить понимание контекста. Однако, добавление таких метаданных обычно требует тяжелой работы по их сбору и аннотации, что требует больших вычислительных ресурсов и времени. Кроме того, многие существующие подходы требуют тщательной доработки моделей для конкретных задач, что может быть затратно и трудоемко. Это создает потребность в более эффективном и модульном подходе к добавлению метаданных о говорящих, который мог бы использовать преимущества существующих моделей без необходимости их дополнительного обучения. В данной работе авторы предлагают решение этой проблемы, используя модели, замороженные на определенном этапе (frozen models), для добавления метаданных о говорящих, таких как возраст, пол и эмоциональное состояние. Они используют модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текстовой информации, без необходимости дополнительного обучения этих моделей. Этот подход позволяет сохранить модульность и скорость обработки, одновременно обеспечивая высокую точность в определении характеристик говорящих. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи обогащения диалоговых транскриптов метаданными о говорящих, авторы предлагают использовать модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текста. Основная идея заключается в том, чтобы использовать эти модели в "замороженном" состоянии, т.е. без необходимости их доработки или дополнительного обучения для конкретной задачи. Аудиоданные обрабатываются с помощью Whisper или WavLM для извлечения акустических функций, а затем эти функции передаются в LLAMA для определения метаданных, таких как возраст, пол и эмоциональное состояние. Для связи аудио- и текстовых представлений используются легковесные коннекторы, которые позволяют эффективно передавать информацию между моделями. Это позволяет сохранить модульность системы, т.е. каждая модель может работать независимо, а результаты их работы собираются в единый набор метаданных. Кроме того, авторы демонстрируют, что LLAMA может быть использована для прямого сравнения x-векторов (x-vectors), что позволяет достичь низкого уровня ошибок (Equal Error Rate, EER) в некоторых сценариях. Этот подход имеет несколько преимуществ. Во-первых, он позволяет использовать предобученные модели без необходимости их дополнительного обучения, что существенно снижает вычислительные затраты. Во-вторых, модульная структура позволяет легко добавлять или изменять компоненты системы без необходимости переобучения всей модели. Наконец, этот подход обеспечивает высокую скорость обработки, что делает его пригодным для реального времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели серию экспериментов на различных наборах данных. Они использовали данные, содержащие диалоги с различными характеристиками говорящих, для тестирования способности моделей определять возраст, пол и эмоциональное состояние. Результаты экспериментов показали, что предложенный метод достигает высокой точности в определении этих характеристик, при этом сохраняя высокую скорость обработки. В частности, авторы показали, что модель LLAMA может быть использована для прямого сравнения x-векторов, достигая Equal Error Rate (EER) в 8.8% в некоторых сценариях. Это говорит о высокой точности модели в определении характеристик говорящих. Кроме того, предложенный метод показал хорошую производительность на различных наборах данных, что подтверждает его универсальность и применимость в различных контекстах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области диалоговой транскрипции и анализа речи. Он может быть использован для обогащения транскриптов метаданными о говорящих, что может быть полезно в таких областях, как анализ эмоций, улучшение качества обслуживания клиентов, а также в области медицинского и психологического консультирования. Одним из ключевых преимуществ этого метода является его модульность и высокая скорость обработки, что делает его пригодным для использования в реальном времени. Кроме того, использование замороженных моделей снижает вычислительные затраты, что делает этот подход более доступным для более широкого круга пользователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод для обогащения диалоговых транскриптов метаданными о говорящих, использующий замороженные модели Whisper, WavLM и LLAMA. Этот подход показал высокую точность и скорость обработки, одновременно сохраняя модульность и легковесность системы. В будущем можно рассмотреть возможность дальнейшего улучшения этого метода, в том числе путем интеграции более точных моделей для обработки аудио- и текстовых данных. Кроме того, можно исследовать возможность применения этого подхода к другим областям, таким как анализ социальных интеракций или мониторинг эмоционального состояния в реальном времени.

Annotation:

In dialogue transcription pipelines, Large Language Models (LLMs) are frequently employed in post-processing to improve grammar, punctuation, and readability. We explore a complementary post-processing step: enriching transcribed dialogues by adding metadata tags for speaker characteristics such as age, gender, and emotion. Some of the tags are global to the entire dialogue, while some are time-variant. Our approach couples frozen audio foundation models, such as Whisper or WavLM, with a frozen ...

ID: 2508.04795v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Embedding Alignment in Code Generation for Audio

2025-08-08

Авторы:

Sam Kouteili, Hiren Madhu, George Typaldos, Mark Santolucito

## КОНТЕКСТ И ПРОБЛЕМАТИКА Лингвистически моделированные генеративные модели (LLM) открыли новые горизонты в области творческого кодирования, предлагая упрощенный доступ к синтаксически сложному коду. Особенно в области лайв-кодинга, где музыкальные идеи часто требят быстрого преобразования в код, LLMs могут помочь пользователям сосредоточиться на структирных элементах, а не на технических деталях. Однако, несмотря на этот потенциал, существует ряд проблем, связанных с генерацией уникального и разнообразного кода. Традиционные модели кода генерации страдают от недостатка разнообразия в предложенных решениях, что может ограничивать креативные возможества пользователей. Кроме того, эти модели не способны непосредственно связать сгенерированный код с результирующим аудио, что создает препятствие для понимания как кода влияет на финальный звук. Эта проблема особенно критична в контексте музыкального творчества, где важна точная корреляция между кодом и аудиовыходом. Для решения этой проблемы, необходимо изучить связь между кодовыми и аудио-вложениями (embeddings) в пространстве представлений. Если можно было бы научиться предсказывать, как код будет влиять на аудио, это бы позволило создавать более разнообразные и музыкально значимые варианты кода. Таким образом, целью данного исследования является разработка модели, которая может выравнивать кодовые и аудио-вложения, обеспечивая более насыщенные музыкальные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы, авторы предлагают модель, которая выравнивает кодовые и аудио-вложения, создавая "кодо-аудио" алгоритм выравнивания. Эта модель основывается на идее того, что код может быть представлен в виде вложений (embeddings) в многомерном пространстве, где каждое вложение соответствует определенному звуковому выходу. Модель состоит из двух основных компонентов: сначала, она использует код для предсказания аудио-вложений, а затем выравнивает эти вложения, чтобы создать более диверсифицированные варианты кода. Для этого, исследователи используют нейронные сети, которые обучаются на данных, содержащих пары кода и соответствующих им аудио-выходов. Ключевым моментом в этом подходе является то, что модель не просто генерирует код, но и предсказывает, как этот код будет влиять на аудио. Это позволяет пользователям получать не только код, но и понимать, как он будет звучать. Для достижения этой цели, исследователи также используют техники построения топологии пространства вложений, чтобы понять, как код и аудио соотносятся друг с другом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода, исследователи провели ряд экспериментов. Они использовали набор данных, состоящий из пар кода и соответствующих аудиозаписей, для обучения модели. Данные были сборлены из различных источников, включая репозитории кода и музыкальные проекты, чтобы обеспечить разнообразие и представительность. В ходе экспериментов, исследователи измерили точность предсказаний модели, а также разнообразие сгенерированных кодов. Результаты показали, что модель успешно выравнивала кодовые и аудио-вложения, обеспечивая более разнообразные варианты кода. Кроме того, модель показала высокую точность в предсказании аудио-вложений, что подтвердило эффективность предложенного подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкие практические применения в области творческого кодирования, особенно в лайв-кодинге. Он позволяет музыкантам и разработчикам создавать более разнообразные и творческие музыкальные композиции, не тратя время на рутинные задачи кодирования. Благодаря возможности предсказывать аудио-выходы на основе кода, пользователи могут быстро экспериментировать с различными вариантами, что ускоряет процесс творчества. Кроме того, этот подход может быть использован в областях, где необходимо создавать код для аудио-ориентированных приложений, таких как игры, виртуальная реальность и мультимедиа. Он также может быть полезен в обучении, помогая студентам и начинающим разработчикам понять связь между кодом и аудио. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, данное исследование демонстрирует, что выравнивание кодовых и аудио-вложений может значительно улучшить процесс генерации кода для музыкальных приложений. Модель, предложенная авторами, не только повышает разнообразие сгенерированного кода, но и обеспечивает более глубокое понимание того, как код влияет на аудио. В будущем, этот подход может быть расширен для работы с более сложными музыкальными структурами и для создания еще более точных моделей выравнивания. Также, исследователи могут рассмотреть возможность интеграции этого метода с другими генеративными моделями, чтобы создавать еще более инновационные решения для творческого кодирования.

Annotation:

LLM-powered code generation has the potential to revolutionize creative coding endeavors, such as live-coding, by enabling users to focus on structural motifs over syntactic details. In such domains, when prompting an LLM, users may benefit from considering multiple varied code candidates to better realize their musical intentions. Code generation models, however, struggle to present unique and diverse code candidates, with no direct insight into the code's audio output. To better establish a re...

ID: 2508.05473v1 cs.MM, cs.AI, cs.SD, eess.AS

arXiv PDF

1
2

Показано 11 - 19 из 19 записей