📚 Саммари научных статей из arXiv

Найдено 65 результатов по запросу 'cs.AI, cs.SD' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 VibeVoice Technical Report

2025-08-28

Авторы:

Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei

## Контекст В современной генеративной моделировании сложной аудио-информации существует ряд проблем, связанных с ограничениями в обработке длинных потоков звука, поддержки множественных голосов и сохранением высокой фидлити. Многие модели существуют в виде оптимизации пространственного и временного контекста, что приводит к ограниченному буферу для обработки длинных аудио-потоков. Также, отсутствие универсального подхода к моделированию сочетания фидлити, множественных голосов и длинных сессий затрудняет создание реалистичных моделей для потокового подкастов, диалогов и многоголосых сценариев. Из этой мотивации возникла потребность в разработке модели, которая могла бы синтезировать длинные сеансы речевого потока с несколькими голосами, сохраняя высокое качество синтеза звука и обеспечивая высокую эффективность вычислений. ## Метод VibeVoice представляет собой новый подход к моделированию длинного речевого потока при помощи метода **next-token diffusion**. Этот подход представляет собой авторегрессивный процесс, который синтезирует длинные аудио-потоки путем последовательной генерации разностных сэмплов (latent vectors), которые последовательно кодируются и декодируются. Модель включает в себя **новую контекстно-зависимую архитектуру**, которая может обрабатывать длинные потоки звука в реальном времени. Для того, чтобы эффективно закодировать длинные аудио-потоки, VibeVoice использует **продолжительное звуковое токенизаторное решение**, которое позволяет сократить объем данных на **80 раз**, но при этом сохраняет высокую фидлити. Это решение позволяет VibeVoice обрабатывать длинные диалоги и многоголосые сценарии без потери качества. ## Результаты VibeVoice протестирована на высококачественных данных, включающих диалоги, многоголосые сценарии и многочасовые потоки речи. Основные результаты показали, что модель может синтезировать речь с **до 90 минут** длиной (в буфере 64K), что значительно превышает ограничения других моделей. Эксперименты показали, что VibeVoice **выдает более высокое качество звука** и **заметно намного лучше поддерживает многоголосую синтезированную речь**. Модель была проверена на многоголосых сценариях, в том числе в диалогах, и показала способность сохранять **контекстный тон, звучание и интонацию** для каждого голоса, даже при длительных сценариях. ## Значимость VibeVoice может быть применена в различных сферах, включая **создание живых диалогов**, **потоковые аудио-контент**, **мультиголосые руководства по обучению** и **аудио-синтез для новостных потоков**. Модель обеспечивает **высокую эффективность вычислений**, что делает ее привлекательной для моб

Annotation:

This report presents VibeVoice, a novel model designed to synthesize long-form speech with multiple speakers by employing next-token diffusion, which is a unified method for modeling continuous data by autoregressively generating latent vectors via diffusion. To enable this, we introduce a novel continuous speech tokenizer that, when compared to the popular Encodec model, improves data compression by 80 times while maintaining comparable performance. The tokenizer effectively preserves audio fid...

ID: 2508.19205v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection

2025-08-27

Авторы:

Xin Zhang, Jiaming Chu, Jian Zhao, Yuchu Jiang, Xu Yang, Lei Jin, Chi Zhang, Xuelong Li

## Контекст В настоящее время deepfake-контент становится все более распространенным, что создает серьезные проблемы в области идентификации и аутентификации мультимедийного содержимого. Данные, содержащиеся в аудио- и видеоформатах, часто имеют свои собственные уникальные признаки, которые могут быть использованы для выявления нарушений аутентичности. Однако возникают сложности в объединении этих двух модальностей для повышения точности и надежности. В связи с этим актуальной является разработка моделей, которые могут эффективно обрабатывать аудио-видео-данные вместе, обнаруживая подвох в контенте. ## Метод ERF-BA-TFD+ — это модель, основанная на совместном использовании enhanced receptive field (ERF) и аудио-видео-фьюзинга. Она использует подходы, которые позволяют обрабатывать видео- и аудиоданные взаимосвязанно, при этом воспользовавшись преимуществами каждой модальности. ERF-BA-TFD+ ориентирована на моделирование длинных зависимостей в данных, что позволяет сопоставить и выделить различия в видео- и аудио-потоках. Ее архитектура включает несколько морфологических модулей, которые обеспечивают не только локальную обработку, но и глобальное понимание содержания. Эти модули работают вместе для построения представления, которое делает модель более точной и устойчивой к различным формам мошенничества. ## Результаты Для проверки модели в работе использовался DDL-AV-датасет, который включал полные видео- и аудиозаписи, а также отдельные участки. Модель ERF-BA-TFD+ показала себя лучше, чем другие модели, которые ранее участвовали в DDL-AV-конкурсе. Она демонстрирует высокую точность в определении deepfake-контента, а также эффективность в процессинге данных. Эксперименты показали, что ERF-BA-TFD+ эффективно объединяет данные из двух модальностей, что позволяет ей выделять не только сильные, но и незначительные различия в контенте. ## Значимость ERF-BA-TFD+ может применяться в различных областях, включая защиту от мошенничества, мониторинг мультимедийного контента и анализ содержимого в социальных сетях. Ее особенность заключается в том, что она может обрабатывать аудио-видео-данные вместе, что дает более широкий подход к обнаружению фальшивого контента. Это делает модель не только удобной в использовании, но и эффективной для решения реальных задач в безопасности и модерации контента. ## Выводы ERF-BA-TFD+ установила новый стандарт в аудио-видео-детекции deepfake-контента. Она показала значительные достижения в точности и производительности в сравнении с предыдущими моделями. В будущем будут проводиться дополнительные исследования для расширения ее возможностей, в том числе рас

Annotation:

Deepfake detection is a critical task in identifying manipulated multimedia content. In real-world scenarios, deepfake content can manifest across multiple modalities, including audio and video. To address this challenge, we present ERF-BA-TFD+, a novel multimodal deepfake detection model that combines enhanced receptive field (ERF) and audio-visual fusion. Our model processes both audio and video features simultaneously, leveraging their complementary information to improve detection accuracy a...

ID: 2508.17282v1 cs.AI, cs.SD

arXiv PDF

📄 MGSC: A Multi-granularity Consistency Framework for Robust End-to-end Asr

2025-08-25

Авторы:

Xuwen Yang

## Контекст Задача распознавания речи (ASR) является ключевым вопросом в области обработки естественного языка и искусственного интеллекта. За последние годы end-to-end ASR модели показали свою эффективность в решении этой задачи, особенно на тренировочных данных. Однако, эти модели чувствительны к шуму и помехам во время работы. Это приводит к катастрофическим ошибкам в семантическом плане, которые могут серьезно снизить качество распознавания. Основная причина этого слабости моделей заключается в том, что они оптимизируются только для минимизации ошибок в конечном выходном результате, не учитывая внутреннюю консистентность процесса вычислений модели. Это делает их нестабильными в условиях реального мира, где шум и помехи типичны. Ранее предложенные решения, такие как методы грубой фильтрации или дополнительных уровней регуляризации, не удалось значительно улучшить устойчивость моделей. Мотивовано этим, в данной работе предлагается новое решение, нацеленное на улучшение внутренней консистентности ASR моделей через многоуровневую регуляризацию. ## Метод Методология предложенного подхода, названного MGSC (Multi-Granularity Soft Consistency), основывается на многоуровневой регуляризации, которая адресует две разные гранулярности консистентности: макро-уровень (семантический контекст) и микро-уровень (токен-уровень). Макро-уровень регуляризации реализует самоудовлетворяющую структуру данных, при которой выход модели должен соответствовать логическому потоку смысла в тексте. Микро-уровень регуляризации фокусируется на том, чтобы токены в выходном потоке тщательно соответствовали словарным единицам и методам раскрытия слова. Технически, MGSC представляет собой модель-агностичный модуль, который может быть интегрирован с любыми end-to-end ASR моделями. Он внедряет дополнительные функциональные ограничения в процесс обучения, чтобы модель не только правильно предсказывала выход, но и сохраняла консистентность во всех слоях вычислительного процесса. Это позволяет уменьшить ошибки, которые могут возникать из-за невязок между семантическим контекстом и токенным раскрытием. ## Результаты На ходу проведены ряд экспериментов на широко известной ASR датасете, представляющем собой звуковые фрагменты с их текстовыми обозначениями. Модель, воспользовавшись MGSC фреймворком, была сравнена с другими методами регуляризации. Результаты показали, что MGSC существенно уменьшает Character Error Rate (CER) в условиях шумового окружения, снижая его на 8.7% по отношению к базовой модели. Это связано с тому, что MGSC не только уменьшает частоту смысловых ошибок, но и улучшает

Annotation:

End-to-end ASR models, despite their success on benchmarks, often pro-duce catastrophic semantic errors in noisy environments. We attribute this fragility to the prevailing 'direct mapping' objective, which solely penalizes final output errors while leaving the model's internal computational pro-cess unconstrained. To address this, we introduce the Multi-Granularity Soft Consistency (MGSC) framework, a model-agnostic, plug-and-play module that enforces internal self-consistency by simultaneously...

ID: 2508.15853v1 cs.CL, cs.AI, cs.SD, eess.AS, I.2.7

arXiv PDF

📄 Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets

2025-08-23

Авторы:

Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han

#################### ## Контекст #################### Генеративные модели текста-na-речь (TTS), основанные на языковых моделях (LM), стали популярными в связи с их возможностью генерировать естественную и естественно выраженную речь. Однако, эти модели часто сталкиваются с проблемой "фантомных" выводов (hallucinations), когда генерируемый синтетический текст отклоняется от оригинального ввода. Такие ошибки могут привести к затруднению понимания речи, особенно в критических сценариях, таких как ассистирующие технологии и синтез речи в системах распознавания речи. Существуют существующие стратегии, стремящиеся устранить эту проблему, но они либо требуют больших вычислительных ресурсов, либо влияют на производительность модели во время выполнения. Это создает необходимость в эффективном и масштабируемом подходе для устранения этих проблем. #################### ## Метод #################### В данной работе предлагается GFlowNet-guided distribution AlignmenT (GOAT) — пост-тренировочный фреймворк для устранения "фантомных" выводов в LM-based TTS. Методология GOAT основывается на анализе неопределенности модели, который демонстрирует сильную положительную корреляцию между высоким уровнем неопределенности и высоким показателем фантомных выводов. Траектория генерации речи представляется как задача оптимизации распределения потока. Для этого предложена усовершенствованная структура Subtrajectory Balance, а также добавлена новая целевая дистрибуция с учетом sharpened internal reward. Для повышения устойчивости и баланса производительности в рамках GOAT внедрено декремент реварда (reward temperature decay) и оптимизацию learning rate. #################### ## Результаты #################### Проведенные эксперименты показали, что GOAT позволяет существенно улучшить качество синтеза речи, снизивший character error rate (CER) на трудных тестовых случаях на более чем 50%. Более того, GOAT позволили снизить неопределенность модели до 58%, что указывает на ее высокую общероботуемость и эффективность в устранении "фантомных" выводов. Эти результаты были получены без дополнительных ресурсов или повышенных затрат на выполнение. #################### ## Значимость #################### Предлагаемый подход имеет широкие потенциальные применения в сфере генеративных текстов-на-речь, в том числе применения в синтезе речи для ассистирующих технологий, систем распознавания речи и живой связи с пользователем. Одним из основных преимуществ GOAT является его эффективность в решении проблемы "фантомных" выводов с минимальными затратами на ресурсы и время выполнения. Этот подход может стать ключевым элементом в создании более надежных и точных текстовых-на-речь систем. #################### ## Выводы #################### В итоге, GOAT представляет собой прорыв в области устранения "фантомных" выводов в LM-based

Annotation:

Language Model (LM)-based Text-to-Speech (TTS) systems often generate hallucinated speech that deviates from input text. Existing mitigation strategies either demand excessive training resources or introduce significant inference latency. In this paper, we propose GFlOwNet-guided distribution AlignmenT (GOAT) for LM-based TTS, a post-training framework that mitigates hallucinations without relying on massive resources or inference cost. Specifically, we first conduct an uncertainty analysis, rev...

ID: 2508.15442v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings

2025-08-22

Авторы:

Taous Iatariene, Alexandre Guérin, Romain Serizel

## Контекст Одна из сложностей технологий синтеза речи и транскрибирования речи в реальном времени заключается в необходимости определения и отслеживания идентичности речи в условиях непрерывного или множественного звучания. Одним из ключевых элементов этой задачи является эффективное распознавание и отслеживание речи в условиях суперпозиции голосов (overlay speech), которая требует точного распознавания и отслеживания речи, а также задействования длительного контекста для решения этой задачи. Однако, это приводит к повышению вероятности ошибок в системе отслеживания и приводит к неточности в последующем идентификации речи. Этот проект адресует эту проблему, предлагая новую методологию для улучшения локализации и отслеживания речи, ориентированные на уменьшение задержек и улучшение точности отслеживания в условиях параллельного звучания голосов. ## Метод Методология, предлагаемая в работе, основывается на ноуватой технике Knowledge Distillation (KD), которая используется для повышения эффективности распознавания речи в условиях двух-голосовых ситуаций. Метод использует короткий контекст распознавания речи, чтобы уменьшить задержки и улучшить частоту ошибок. Для повышения точности распознавания используется специальная техника beamforming, которая позволяет обрабатывать звук более точно и уменьшать шум и помехи. Этот подход применяется в ситуациях, когда два звука различаются одновременно, чтобы повысить точность и уменьшить задержки в процессе отслеживания речи. ## Результаты Проведенные эксперименты показали, что использование дистилляционной техники KD и beamforming действительно повышает эффективность речи и уменьшает задержки в системе отслеживания речи. Результаты показали, что полученные модели демонстрируют улучшение в обработке двух-голосовых ситуаций, особенно в ситуациях с одновременным звучанием голосов. Однако, хотя модели были успешны в уменьшении задержек и улучшении точности отслеживания, они показали недостаточную производительность при обработке ситуаций с более сложным распределением речи. Это указывает на необходимость дальнейших исследований в этой области, чтобы улучшить производительность моделей в наиболее сложных ситуациях. ## Значимость Предложенный подход может быть применен в различных областях, включая технологии для распознавания речи в реальном времени, системы транскрибирования речи и технологии для обеспечения повышенного уровня безопасности и точности при работе с голосовыми подсказками. Основные преимущества этого подхода заключаются в том, что он уменьшает задержки и улучшает точность распознавания речи в условиях многоголосности.

Annotation:

Speaker embeddings are promising identity-related features that can enhance the identity assignment performance of a tracking system by leveraging its spatial predictions, i.e, by performing identity reassignment. Common speaker embedding extractors usually struggle with short temporal contexts and overlapping speech, which imposes long-term identity reassignment to exploit longer temporal contexts. However, this increases the probability of tracking system errors, which in turn impacts negative...

ID: 2508.14115v1 eess.AS, cs.AI, cs.SD, eess.SP

arXiv PDF

📄 A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References

2025-08-22

Авторы:

Simon Dahl Jepsen, Mads Græsbøll Christensen, Jesper Rindom Jensen

## Контекст В области звукового сегментирования и синтеза звука, таких как звуковое разделение речи, центральным заданием является оценка и улучшение качества разделённых сигналов. Одним из популярных показателей для этой задачи является Scale-Invariant Signal-to-Distortion Ratio (SI-SDR), который является фундаментальным инструментом в методах отбора и оценки качества разделённых сигналов. Однако, в реальности, звуковые сигналы часто содержат шум, что повлияет на качество сигналов после разделения. Настоящая статья рассматривает проблему сношения SI-SDR с шумом в речевых сигналах, а также исследует эффект этого взаимодействия на качество разделённых сигналов. ## Метод Основной методологией исследования является анализ влияния шума в референсах на вычисление SI-SDR. Авторы рассматривают два основных взаимодействия: влияние шума на метрику SI-SDR и его влияние на качество разделённых сигналов. Для экспериментов, используются две разновидности сигналов: синтетические звуковые сэмплы с известным шумом, а также реальные речи, записанные в условиях шума. Для измерения качества разделённых сигналов используется метрика NISQA.v2, которая оценивает качество разделённых сигналов независимо от интрузивного анализа. ## Результаты В ходе экспериментов было выявлено, что шум в референсах приводит к ограничению достижимого SI-SDR. Также, было показано, что существенным недостатком использования шумового референса является включение шума в разделённые сигналы. Использование улучшенных референсных сигналов и дополнительных шумовых сигналов в качестве аугментаций (WHAM!) позволило снизить эффект шума в разделённых сигналах. Однако, это также привело к некоторым артефактам в разделённых сигналах, что привело к небольшому снижению качества. Также, было выявлено отрицательное коррелированное отношение между SI-SDR и уровнем шума в разделённых сигналах. ## Значимость Исследование имеет значимое значение для области развития алгоритмов разделения речи. Улучшение методов разделения речи, которое может привести к повышению качества разделённых сигналов, имеет приложения в таких областях, как звуковая обработка, улучшение речевых систем, синтез речи и интеллектуальные системы управления. Этот подход может способствовать решению проблемы шума в данных и созданию более надежных систем персональных помощников. ## Выводы В результате исследования было показано, что SI-SDR может быть влиянием шума в референсах, что может привести к нежелательным артефактам в разделённых сигналах. Было предложено методика для улучшения квалификации референсных сигналов

Annotation:

This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment t...

ID: 2508.14623v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 End-to-End Audio-Visual Learning for Cochlear Implant Sound Coding in Noisy Environments

2025-08-21

Авторы:

Meng-Ping Lin, Enoch Hsin-Ho Huang, Shao-Yi Chien, Yu Tsao

## Контекст Проблематика: Устройства коклеарных имплантов (CI) являются инновационными медицинскими устройствами, позволяющими людям с сильной или тяжелой глухотой ощущать звуки. Однако, несмотря на развитие технологий, CI-устройства стремятся к надежности в шумных или реверберирующих условиях. Эта проблема остается открытой, так как существующие системы не всегда могут выделить говорящий голос в шумных средах, что снижает качество слушания. Мотивация: За счет развития глубокого обучения возникло возможность решения этой проблемы, особенно с использованием подходов, интегрирующих аудио-визуальные сигналы. Аудио-визуальная система улучшения звука (AVSE) может стать мощным средством для улучшения результатов CI-систем в шумных условиях. ## Метод Описание: Авторы предлагают AVSE-ECS, комбинацию модели AVSE (аудио-визуального улучшения звука) и Электродной Нейронной Сети ECS, которая используется для кодирования звука. AVSE-ECS использует аудио-визуальные сигналы для улучшения звука в шумных условиях. Этот метод является энд-то-энд, что означает, что он преобразует аудио-визуальные сигналы непосредственно в кодовые электрические сигналы. Технические Решения: Проектирование AVSE-ECS включает в себя несколько ключевых этапов: 1. Интеграция аудио-визуальных данных для улучшения звука. 2. Обучение модели с помощью электродной сети, которая преобразует эти сигналы в кодовый вид. 3. Использование глубокого обучения для решения задачи оценки качества звука в шумных условиях. ## Результаты Описание Экспериментов: Для проверки AVSE-ECS, выполнены тесты на нескольких тестовых наборах данных с разным уровнем шума. Результаты показали, что AVSE-ECS имеет значительное преимущество по сравнению с другими подходами в улучшении способности CI-систем понимать речь в шумных условиях. Оценка Результатов: Оценка производилась с помощью метрик, таких как objective speech intelligibility (ОСИ), которая измеряет восприятие речи в условиях шума. Результаты показали, что AVSE-ECS на 12% выше по OSI по сравнению с существующим ECS-системой. ## Значимость Применения: Выводы данного исследования могут быть применены в медицинской и технологической отраслях. Метод AVSE-ECS может быть использован для улучшения качества звука CI-систем, помогая людям с глухотой в шумных средах. Преимущества: - Улучшенное восприятие речи в шумных условиях. - Интеграция визуальных сигналов для повышения точности. - Эффективность в рабо

Annotation:

The cochlear implant (CI) is a remarkable biomedical device that successfully enables individuals with severe-to-profound hearing loss to perceive sound by converting speech into electrical stimulation signals. Despite advancements in the performance of recent CI systems, speech comprehension in noisy or reverberant conditions remains a challenge. Recent and ongoing developments in deep learning reveal promising opportunities for enhancing CI sound coding capabilities, not only through replicati...

ID: 2508.13576v1 eess.AS, cs.AI, cs.SD, eess.IV

arXiv PDF

📄 Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning

2025-08-20

Авторы:

Yu-Hsuan Fang, Tien-Hong Lo, Yao-Ting Sung, Berlin Chen

## Контекст Автоматизированная оценка речи (Automated Speaking Assessment, ASA) является ключевым компонентом обучения иностранным языкам, позволяя анализировать и оценивать устную речь учащихся. Однако существующие системы ASA страдают ограничениями модальности: текстовые подходы не учитывают акустическую информацию, а аудио-подходы не учитывают семантический контекст. Это приводит к несовершенству в оценке таких аспектов, как содержание речи и языковой уровень. Более того, существует недоступность специализированных методов для оценки динамических аспектов речи, таких как дикция и интонация. Эти ограничения мотивируют развитие моделей, которые могут обрабатывать множество модальностей для полноценного анализа речи. ## Метод Данная работа представляет собой первую систематическую исследовательскую работу по применению Multimodal Large Language Models (MLLM) для полноценной ASA. MLLM объединяют в себе аудио- и текстовые данные в единой модели, что позволяет обрабатывать все аспекты речи — содержание, языковой уровень и динамические характеристики (дикция и интонация). Эта работа также представляет новую методологию Speech-First Multimodal Training (SFMT), основанную на принципах curriculum learning. SFMT укрепляет модельную основу для обработки речи до того, как происходит синергетическое сочетание мультимодальных данных. ## Результаты Эксперименты проводились на бенчмарк-датасете, содержащем звуковые записи устных высказываний с оценками по экспертным критериям. Результаты показали, что MLLM-системы повышают точность оценки речи, увеличивая корреляционный коэффициент (PCC) с 0.783 до 0.846. Особое внимание уделено аспекту "дикция" (динамические характеристики речи), где SFMT демонстрирует абсолютный прирост точности в 4% по сравнению с традиционными методами. Это свидетельствует о том, что SFMT может устранить существующие проблемы в оценке устной речи. ## Значимость Предложенная модель имеет широкие перспективы применения в обучении иностранным языкам, а также в системах личного и профессионального развития. Она предоставляет более точную и полную оценку устной речи, учитывая все аспекты — содержание, языковой уровень и динамические характеристики. Выявленный потенциал MLLM-моделей для ASA открывает новые технические и научные возможности в области машинного обучения и образовательных технологий. ## Выводы Результаты экспериментов подтверждают, что MLLM являются эффективным инструментом для полноценной ASA. Особое внимание уделено стратегии SFMT, которая устанавливает новый стандарт в обучении моделей к обработке речи. Будущие исследования буду

Annotation:

Traditional Automated Speaking Assessment (ASA) systems exhibit inherent modality limitations: text-based approaches lack acoustic information while audio-based methods miss semantic context. Multimodal Large Language Models (MLLM) offer unprecedented opportunities for comprehensive ASA by simultaneously processing audio and text within unified frameworks. This paper presents a very first systematic study of MLLM for comprehensive ASA, demonstrating the superior performance of MLLM across the as...

ID: 2508.12591v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 MCP2OSC: Parametric Control by Natural Language

2025-08-16

Авторы:

Yuan-Yi Fan

#### Контекст Процессы создания контента в мультимедиа становятся все более интерактивными, но требуют значительных усилий для достижения высокой точности при выполнении комплексных задач. Текстовые запросы позволяют легко задавать потребности, но часто не обеспечивают достаточной точности. Альтернативой — сложные системы управления с помощью нобсов или ползунков, которые требуют большого количества знаний и ресурсов. Это создает затруднения в поиске баланса между простотой и точностью. Целью данного исследования является разработка системы, которая бы способствовала более эффективному сочетанию текстовых запросов и точных настроек, с помощью нового протокола MCP (Model Context Protocol). #### Метод Для решения этой проблемы предлагается использовать новый протокол MCP (Model Context Protocol), который позволяет использовать текстовые запросы для управления OSC (OpenSoundControl) системами. Эта система включает в себя MCP2OSC-сервер и новые критерии для разработки текстовых запросов. Основная методика заключается в комбинировании мощи значительного языкового модели (LLM) с функциональностью сервера для преобразования естественного языка в OSC-сообщения. Использованы 14 практических примеров с запросами и шаблонами текстовых запросов, что позволило проверить эффективность системы в различных сценариях использования. #### Результаты Испытания показали, что Claude (LLM), сконфигурированный с MCP2OSC-сервером, позволяет легко и эффективно управлять OSC-системами с помощью естественного языка. Эта система может искать, валидировать, интерпретировать, дебажить, и визуализировать OSC-сообщения, а также управлять OSC-адресами. Отдельно подчеркнут высокий уровень точности и простоту взаимодействия, которые данная система предоставляет. Эксперименты подтверждают, что MCP2OSC можно использовать для решения ключевых задач в разработке OSC-систем, достигая точности и комфорта. #### Значимость Предлагаемая система может быть применена в различных областях, включая звуковую и визуальную синтез, робототехнику, интерактивные инсталляции, и другие системы, требующие точного управления. Основные преимущества заключаются в упрощении процессов управления, увеличении точности, и возможности комбинирования текстовых запросов с точным техническим контролем. Будущие исследования могут сфокусироваться на расширении функциональности MCP2OSC, внедрении в различные мультимедийные системы, и развитии дополнительных критериев текстовых запросов. #### Выводы Разработанная система MCP2OSC представляет собой новую модель сов

Annotation:

Text prompts enable intuitive content creation but may fall short in achieving high precision for intricate tasks; knob or slider controls offer precise adjustments at the cost of increased complexity. To address the gap between knobs and prompts, a new MCP (Model Context Protocol) server and a unique set of prompt design criteria are presented to enable exploring parametric OSC (OpenSoundControl) control by natural language prompts. Demonstrated by 14 practical QA examples with best practices a...

ID: 2508.10414v1 cs.HC, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 VGGSounder: Audio-Visual Evaluations for Foundation Models

2025-08-14

Авторы:

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

## Контекст Аудио-визуальные фундаментальные модели, использующие звуковые и зрительные сигналы, приобретают все большую значимость в области машинного обучения. Одной из ключевых задач в этой области является правильное оценивание понимания таких моделей. Для этого часто используется датасет VGGSound, который представляет собой значительный ресурс для оценки классификации аудио-визуальных сигналов. Однако наш анализ выявил несколько проблем, включая неполную меткацию, пересекающиеся классы и неоднородность между модальностями. Эти ошибки влияют на точность оценки моделей и потенциально приводят к неверным выводам. Чтобы устранить эти недостатки, мы предлагаем VGGSounder — расширенный, перезагруженный датасет с подробными мультимодальными метками, который позволяет проводить более точные исследования. ## Метод VGGSounder является дополнением к VGGSound и представляет собой новый многомерный тестовый набор, основанный на том же наборе видео, но с переоцененными метками. Методология включает перезагрузку меток с целью гарантировать точность и полноту. Мы также ввели новый метрику "модальностная путаница", которая позволяет отслеживать различия в производительности моделей при добавлении дополнительной модальности. Данная метрика позволяет выявлять недостатки моделей, связанные с их несовершенным пониманием мультимодальных сигналов. ## Результаты Мы провели эксперименты с использованием VGGSounder на нескольких знаковых моделях аудио-визуального понимания. Наши результаты показали, что многие модели демонстрируют существенные недостатки в понимании одной или обеих модальностей. Например, мы обнаружили, что при добавлении дополнительной модальности производительность моделей значительно ухудшается из-за существующих несовпадений и пересечений классов. Эти результаты демонстрируют необходимость более точных методов оценки для таких моделей. ## Значимость VGGSounder открывает новые возможности для понимания и оценки аудио-визуальных моделей. Он может использоваться в бенчмарках для проверки новых моделей, а также для изучения проблем, связанных с несовпадением модальностей. Возможно, эта работа может привести к новым алгоритмам, которые будут более эффективно обрабатывать мультимодальные данные. Кроме того, VGGSounder может быть применим в различных областях, таких как аудио-визуальная синтезированная реальность, устройства с аудио-визуальным взаимодействием, и мультимодальная аналитика. ## Выводы Мы представили VGGSounder, переоцененную многомерную метку для VGGSound, которая оптимизирована для точной оценки аудио-визуальных моделей. Наши исследования выявили недоста

Annotation:

The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSound dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSound, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce V...

ID: 2508.08237v2 cs.MM, cs.AI, cs.SD

arXiv PDF

1
2
4
5
6
7

Показано 51 - 60 из 65 записей