📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня
Авторы:

Giovana Morais, Magdalena Fuentes

## Контекст В последние годы появились значительные достижения в области текстовых языковых моделей, включая Large Language Models (LLMs), которые проявляют высокую точность в обработке текста. Однако говорящие модели, взаимодействующие с звуковыми данными, по-прежнему представляют собой сложную техническую проблему. Audio Large Language Models (Audio LLMs) предназначены для обеспечения естественных диалогов об музыке, но остается неясным, насколько эти модели полагаются на аудиоданные при принятии решений. Несмотря на их высокую точность в текстовых задачах, некоторые бенчмарки показывают, что модели могут опираться на текстовые признаки даже при работе с аудио, что подводит к вопросу: воспринимают ли модели действительно аудио, или же опираются лишь на текстовые знания? Данная работа стремится изучить этот вопрос, определив уровень вклада каждой модальности во взаимодействии. ## Метод Для исследования вклада модальностей в Audio LLMs воспользовались MM-SHAP, фреймворком, основанным на теории Шепле, который предоставляет показатели, не зависящие от точности моделей. Метод работает путем вычисления относительного вклада каждой модальности в вывод модели, что позволяет проанализировать, насколько высок уровень вклада аудиоданных в процесс принятия решений. Модели, которые были проанализированы в рамках экспериментов, были протестированы на MuChoMusic, бенчмарке, опирающемся на задачи по музыкальным диалогам. Эта методика позволила получить четкие показатели относительного вклада каждой модальности в процессе работы модели. ## Результаты Экспериментальные результаты показали, что высокоточная модель в значительной степени полагается на текстовые признаки при ответов на вопросы. Тем не менее, детальный анализ показал, что даже при таком поведении, модели могут успешно определять и ключевые события звука, что указывает на то, что аудио не игнорируется в принятии решений. Таким образом, данные результаты указывают на то, что, хотя текст имеет значительный вклад, аудио модальность, хотя и в меньшей степени, все же привлекается в процесс. Этот анализ был впервые проведен в контексте Audio LLMs, и он по высокой степени способствует развитию раздела говорящих и интерпретируемых моделей. ## Значимость Результаты работы имеют важное значение в сфере говорящих технологий и моделей, взаимодействующих с звуковыми данными. Эти модели могут быть применены в музыкальной аналитике, рекомендациях музыки, персонализации контента и других областях. Изучение вклада модальностей позволяет повысить транспарентность в работе Audio LLMs, что в свою очередь может привести к улучшенной надежности и пониманию пользователями. В
Annotation:
Audio Large Language Models (Audio LLMs) enable human-like conversation about music, yet it is unclear if they are truly listening to the audio or just using textual reasoning, as recent benchmarks suggest. This paper investigates this issue by quantifying the contribution of each modality to a model's output. We adapt the MM-SHAP framework, a performance-agnostic score based on Shapley values that quantifies the relative contribution of each modality to a model's prediction. We evaluate two mod...
ID: 2509.20641v1 cs.LG, cs.SD
Авторы:

Rostislav Makarov, Lea Schönherr, Timo Gerkmann

## Контекст Современные методы машинного обучения, применяемые в области улучшения речи (speech enhancement), достигли высокого уровня выразительности, позволяя значительно модифицировать входные сигналы. Однако эта выразительность также сопряжена с опасностью: в современных моделях могут проникнуть атаки с использованием адверсарных шумов, которые могут изменить семантический смысл улучшенной речи. Такой риск становится крайне актуален в сферах применения, где речь является ключевым способом передачи информации, например, в системах управления, диалоговых системах и автоматизированных системах обработки запросов. Описанная проблема побудила исследователей оценить уязвимость современных моделей к подобным атакам и разработать меры по их противостолбцу. ## Метод Исследователи применили методы адверсарного обучения (adversarial training) для создания имитационных звуковых сигналов, которые могут проникнуть в модели улучшения речи. Шум был специально сконструирован так, чтобы быть искусственным, но при этом незаметным на уровне психоакустического ощущения. Работа также включала в себя анализ различных архитектур моделей улучшения речи, в том числе использование моделей с разными уровнями сложности и обучения. Также было проведено исследование уязвимости различных типов моделей улучшения речи, включая автокодировщики и сверточные модели. ## Результаты Полученные результаты показали, что многие современные модели подвержены угрозам адверсарных атак. Были получены примеры звуковых сигналов, в которых инъекция адверсарного шума приводила к изменению семантического смысла. Данные эксперименты провели на учебных наборах данных, таких как LibriSpeech и DEMAND. Итоговое подтверждение утверждения о возможности атак на модели улучшения речи было получено с помощью высокой точности взаимодействия моделей с адверсарными шумавыми сигналами. ## Значимость Результаты исследований указывают на важность улучшения безопасности моделей улучшения речи. Области применения включают в себя системы управления, автомобильные системы, диалоговые системы, а также системы перевода. Преимуществом данного исследования является получение новых сведений о слабых местах современных моделей и разработка альтернативных моделей, например, diffusion models, которые, благодаря своей структуре, естественно оказываются более устойчивыми к таким атакам. Потенциальное влияние заключается в усилении безопасности и надежности голосовых систем в критически важных сферах применения. ## Выводы Основные достижения исследования заключаются в том, что адверсарные шумы могут быть эффективно использованы для измен
Annotation:
Machine learning approaches for speech enhancement are becoming increasingly expressive, enabling ever more powerful modifications of input signals. In this paper, we demonstrate that this expressiveness introduces a vulnerability: advanced speech enhancement models can be susceptible to adversarial attacks. Specifically, we show that adversarial noise, carefully crafted and psychoacoustically masked by the original input, can be injected such that the enhanced speech output conveys an entirely ...
ID: 2509.21087v1 eess.AS, cs.LG, cs.SD
Авторы:

Yonghyun Kim, Chaeyeon Han, Akash Sarode, Noah Posner, Subhrajit Guhathakurta, Alexander Lerch

#### Контекст Аудио-базированное обнаружение пешеходов является сложной задачей, которая до сих пор была исследована только в шумоограниченных средах. Однако в реальном мире шум от транспорта часто преобладает над звуковыми сигналами, связанными с пешеходами. Это создает сложности для правильного обнаружения пешеходов в таких условиях. Мы предлагаем новый датасет, анализ результатов и подробный обзор состояния исследований в области звукового обнаружения пешеходов в условиях транспортного шума. Данные эксперименты позволяют увидеть степень устойчивости алгоритмов к шумам и кросс-средственную оценку моделей в разных условиях. #### Метод Мы предлагаем новый датасет, состоящий из 1321 часов аудиозаписей, собранных вблизи дорог в различных условиях транспортного шума. Записи охватывают различные дорожные условия, включая трафик и городской шум. Каждая запись включает 16kHz аудиофайлы, синхронизированные с 1fps видео и шагами разбиения на кадры. Мы использовали модели YOLOv4 и DETR для обнаружения пешеходов, а также модели глубокого обучения для распознавания звуков в разных условиях. Методы включали искусственное натренирование моделей на шумовых данных, а также проверки моделей на тестовом датасете с разным шумовым фоном. #### Результаты Мы проводили три основных эксперимента: (i) сравнение моделей на шумовом и нет шумовом датасетах для оценки их кросс-средственной оценки; (ii) изучение влияния шума на показатели моделей, включая различные аспекты звукового контекста; (iii) оценка устойчивости моделей к out-of-domain звуковым сигналам. Результаты показали, что модели YOLOv4 и DETR показывают хорошую стабильность на шумовых записях, но их производительность существенно ухудшается при включении звуков транспорта. Мы также обнаружили, что звуковые сигналы, связанные с транспортом, могут оказывать значительное влияние на модели, особенно когда модели обучены на шумных данных. #### Значимость Наша работа имеет значительное значение для разработки моделей звукового обнаружения пешеходов в реальных условиях, в том числе в городских зонах с высоким транспортным шумом. Мы показали, что шум от транспорта может существенно снижать точность моделей, но при этом могут быть использованы методы, которые повышают устойчивость моделей. Это может быть полезно для автоматических систем обнаружения пешеходов в автомобилях, в системах безопасности на дорогах и для систем автоматизации города. #### Выводы Мы показали, что звуковые сигналы, с
Annotation:
Audio-based pedestrian detection is a challenging task and has, thus far, only been explored in noise-limited environments. We present a new dataset, results, and a detailed analysis of the state-of-the-art in audio-based pedestrian detection in the presence of vehicular noise. In our study, we conduct three analyses: (i) cross-dataset evaluation between noisy and noise-limited environments, (ii) an assessment of the impact of noisy data on model performance, highlighting the influence of acoust...
ID: 2509.19295v1 eess.AS, cs.AI, cs.LG, cs.SD
Авторы:

Sean Turland, Eloi Moliner, Vesa Välimäki

## Контекст Музыкальное восстановление (или inpainting) — это задача полного или частичного восстановления отсутствующих фрагментов аудиозаписи. Она находит применение в сценариях, таких как восстановление поврежденных записей, восстановление музыки из неполных записей или удаление нежелательных звуков. Существующие методы, основанные на сверточных или рекуррентных нейронных сетях, эффективны для восстановления небольших и средних промежутков, но сталкиваются с трудностями при работе с продолжительными пробелами. Это приводит к неестественности в реконструкции и ограничивает применение этих методов в реальных сценариях. ## Метод Для улучшения реконструкции продолжительных пробелов мы предлагаем Similarity-Guided Diffusion Posterior Sampling (SimDPS). Это гибридная модель, объединяющая диффузионный подход к инференсу с методом поиска схожести. Сначала базисная модель диффузии производит предварительную оценку восстановления. Затем, алгоритм поиска схожести ищет сегменты из корпуса, которые лучше всего соответствуют контексту местоположения пробела. Эти сегменты используются для уточнения входных данных для модели диффузии, что приводит к более консистентной и музыкально правдоподобной реконструкции. ## Результаты Мы провели эксперименты на музыкальных записях для восстановления пропусков длиной 2 секунды. Метриками оценки послужили субъективные оценки предпочтения и независимые метрики точности восстановления. Результаты показали, что SimDPS превосходит модели, основанные только на диффузии или поиске схожести во всех сценариях. Это демонстрирует то, что при готовности найти схожие сегменты, диффузионные модели могут достичь высокого уровня реалистичности даже при работе с длинными пробелами. ## Значимость Предложенный подход имеет широкие потенциальные применения в области восстановления аудио и поддержки редактирования музыки. Он может быть применен для восстановления поврежденных записей, улучшения музыки из неполных записей и воспроизведения музыки с выбранными пропусками. Главное преимущество заключается в улучшенной перспективе для реалистичных восстановок, когда доступны хорошие схожие сегменты. Это открывает путь к более надежной реализации восстановления аудиозаписей с помощью глубокого обучения. ## Выводы Мы выдвигаем, что SimDPS является прорывом в области восстановления музыки с продолжительными пробелами, позволяя достичь более высокого уровня реалистичности и консистентности. Будущие исследования будут сфокусированы на расширении метода для работы с разнообразными жанрами музыки и улучшении эффективности алгоритма для больших корпусов.
Annotation:
Music inpainting aims to reconstruct missing segments of a corrupted recording. While diffusion-based generative models improve reconstruction for medium-length gaps, they often struggle to preserve musical plausibility over multi-second gaps. We introduce Similarity-Guided Diffusion Posterior Sampling (SimDPS), a hybrid method that combines diffusion-based inference with similarity search. Candidate segments are first retrieved from a corpus based on contextual similarity, then incorporated int...
ID: 2509.16342v1 eess.AS, cs.LG, cs.SD
Авторы:

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel

## Контекст Говорящие языковые модели (LLM) становятся все более важными для различных аспектов технологий, включая специальные системы, связанные с распознаванием речи, техническими библиотеками, системами рекомендации и другими. Особенно актуальной стала работа с задачами, возникающими при работе с говорящими языками, таких как автоматическое переводить речи и отвечать на вопросы. Однако существуют различные проблемы, связанные с этим, включая трудности в понимании речи, нормализации входных данных, а также обработке новых типов задач. На практике, многие текущие решения ограничены в том, что они ориентированы на задачи с фиксированными ответами, что не позволяет сделать модели более универсальными. В этом контексте требуется развитие моделей, которые могут подстраиваться под различные типы задач и языков. ## Метод Мы предлагаем метод **Group Relative Policy Optimization (GRPO)**, который используется для обучения моделей **Speech-Aware Large Language Models (SALLMs)**. GRPO широко используется для обучения моделей с целью повышения эффективности и точности. **BLEU** (Bilingual Evaluation Understudy) - это сигнал реWARD, который используется для оценки качества перевода или генерирования текста. Мы используем GRPO в комбинации с BLEU, чтобы оптимизировать модели SALLMs для задач, таких как **Spoken Question Answering** и **Automatic Speech Translation**. Мы также используем off-policy samples (записанные при помощи других моделей) для расширения области исследований и повышения точности моделей. ## Результаты Мы проводили эксперименты с различными данными и сравнили результаты с применением GRPO и стандартной SFT (Sequence-to-Sequence Fine-Tuning). Модель SALLM, обученная с помощью GRPO, показала лучшие результаты по нескольким ключевым метрикам, включая BLEU, ROUGE-L и METEOR. Мы также показали, что использование off-policy samples может улучшить качество генерирования и обработки новых типов задач. Эти результаты показали, что GRPO может быть эффективным методом для обучения моделей SALLM, что позволяет добиться лучших результатов на различных типах говорящих языков. ## Значимость Метод GRPO может быть применен в различных сферах, включая модели для распознавания речи, автоматического перевода речи и решения различных задач лингвистики. Этот подход может использоваться в системах, которые требуют высокого качества генерирования текста и понимания речи. Это позволит сделать модели более универсальными и эффективными для различных языков и типов данных. Например, модель SALLM с GRPO может стать базой для развития новых систем, повышающих точность и мощность автоматического перевода и распознавания речи. ## Выводы Мы представили **GRPO** - метод для обучения моделей Speech-Aware Large Language Models, который показал высокую эффективность по сравнению с сущест
Annotation:
In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based method for training Speech-Aware Large Language Models (SALLMs) on open-format speech understanding tasks, such as Spoken Question Answering and Automatic Speech Translation. SALLMs have proven highly effective for speech understanding tasks. GRPO has recently gained traction for its efficiency in training LLMs, and prior work has explored its application to SALLMs, primarily in multiple-choice tasks. Building on this,...
ID: 2509.16990v1 cs.CL, cs.AI, cs.LG, cs.SD, eess.AS
Авторы:

Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee

#### Контекст Осуществление многомерных взаимодействий между текстом и аудио является ключевым запросом в современных текстовых моделях. Хотя люди способны осуществлять понятие аудиосвойств, таких как звуковой тон, громкость или связь звука с источником, исходя из знаний пространства, большинство текстовых моделей страдают от малой способности обрабатывать такие свойства. Этот ряд ограничений может стать препятствием для эффективных многомодальных приложений. Одним из шагов к решению этой проблемы является разработка AuditoryBench++, которая представляет собой новую меру для оценки моделей текстов в части их способности к аудиокоммуникации и соотнесению. #### Метод **AuditoryBench++** представляет собой набор задач, которые разбиваются на две группы: базовые аудиосравнения и социально-контекстуальные рассуждения. Методика использует специальные токены для синтеза информации в процессе вывода. Таким образом, модель может генерировать и анализировать аудиоконцепты, используя свои внутренние механизмы. Для оценки моделей был разработан алгоритм **AIR-CoT** (Auditory Imagination Reasoning with Chain-of-Thought), который имеет возможность расширять текстовую информацию, используя аудиоконцепты в процессе рассуждения. #### Результаты Мы проводили эксперименты с различными текстовыми моделями, включая обученные с нуля LLMs и модели с многомодальными возможностями. Результаты показали, что AIR-CoT не только превосходит готовые модели без дополнительных модификаций, но и существенно улучшает результаты в сравнении с моделями, в которых использовался дополнительный аудиоконтекст. Это улучшение является примечательным, так как AIR-CoT не требует внешних сенсорных данных, таких как аудиозаписи. #### Значимость Аудиокомпетентность, предлагаемая **AuditoryBench++**, может найти применение в широком спектре многомодальных приложений, таких как системы опоры на текст, роботы-компаньоны, и обозреватели смысла звука. Этот подход открывает новые возможности для лучшего понимания и интерактивности с многомодальными текстовыми моделями. Благодаря AIR-CoT, модели могут достичь более высокого уровня рациональности в аудиоконтекстах, не требуя дополнительных аудиоданных. #### Выводы **AuditoryBench++** и AIR-CoT являются прорывными направлениями в области развития моделей, которые могут обрабатывать аудиоконцепты. Наши результаты открывают путь к будущим исследованиям в области взаимодействия текста и аудио, призывая к дальнейшему исследованию аудиокомпетентности в текстовых моделях. Мы считаем, что этот подход может значительно улучшить многомодальные приложения, даруя и
Annotation:
Even without directly hearing sounds, humans can effortlessly reason about auditory properties, such as pitch, loudness, or sound-source associations, drawing on auditory commonsense. In contrast, language models often lack this capability, limiting their effectiveness in multimodal interactions. As an initial step to address this gap, we present AuditoryBench++, a comprehensive benchmark for evaluating auditory knowledge and reasoning in text-only settings. The benchmark encompasses tasks that ...
ID: 2509.17641v1 cs.CL, cs.AI, cs.LG, cs.SD
Авторы:

Yuyu Wang, Wuyue Xia, Huaxiu Yao, Jingping Nie

## Контекст Область исследования связана с анализом пост-тренировочной речи, которая содержит богатые физиологические и языковые сигналы. Эти сигналы отражают различные аспекты физиологического состояния человека, включая темп восстановления, функцию легких и уровень утомления. Одним из ключевых аспектов является выявление и различение различных типов пауз в речи - семантических, дыхательных и комбинированных. Эти паузы могут свидетельствовать о различных физиологических процессах и их отклонениях. Несмотря на важность этого вопроса, существующие работы на этой теме остаются ограниченными, особенно в контексте использования современных методов анализа данных. Мотивация для этого исследования основывается на необходимости создания более точных и надежных систем, которые могут анализировать пост-тренировочную речь и давать быстрые выводы о состоянии здоровья человека. ## Метод Для решения поставленных задач использована систематическая методология, включающая несколько этапов. В качестве исходных данных использовался специально созданный датасет, содержащий синхронизированные аудио- и респираторные сигналы. Для распознавания пауз использовались модели глубокого обучения, такие как GRU, 1D CNN-LSTM, AlexNet и VGG16, а также различные акустические признаки, такие как MFCC и MFB. Также были рассмотрены представления слоёв Wav2Vec2. Методы включили как классификационные, так и регрессионные подходы. Для лучшей точности и объёмности выявления различных типов пауз была разработана двухступенчатая модель - сначала происходит детекция, затем классификация. ## Результаты В ходе экспериментов было получено несколько важных результатов. Для распознавания семантических пауз была достигнута точность до 89%. Для дыхательных пауз - до 55%, а для комбинированных - до 86%. Общая точность распознавания пауз составила 73%. Для классификации уровня утомления после тренировки была достигнута точность 90.5%. Эти результаты превышают показатели предыдущих исследований, что демонстрирует эффективность предложенной модели. ## Значимость Предложенная модель может применяться в различных областях, включая медицину, спорт, исследования физиологических процессов. Она обладает высокой точностью и может быть использована для мониторинга здоровья и оценки уровня утомления после физической нагрузки. Наиболее значимыми преимуществами являются точность распознавания различных типов пауз и возможность интеграции с другими системами мониторинга здоровья. Это может повлиять на развитие
Annotation:
Post-exercise speech contains rich physiological and linguistic cues, often marked by semantic pauses, breathing pauses, and combined breathing-semantic pauses. Detecting these events enables assessment of recovery rate, lung function, and exertion-related abnormalities. However, existing works on identifying and distinguishing different types of pauses in this context are limited. In this work, building on a recently released dataset with synchronized audio and respiration signals, we provide s...
ID: 2509.15473v1 eess.AS, cs.CL, cs.LG, cs.SD
Авторы:

Nikita Torgashov, Gustav Eje Henter, Gabriel Skantze

## Контекст В последние годы текстовые- Na по-речевые системы (TTS) стали важной частью цифровых технологий, используясь в различных областях, от смартфонов и автомобилей до умных домов и роботов. Однако многие существующие системы страдают от долгого времени отклика, что ограничивает их применение в реальном времени. Требуется новая подход, позволяющий осуществлять стриминговый TTS с минимальным задержкой, чтобы обеспечить быструю и надежную реализацию речи в различных сценариях. ## Метод VoXtream представляет собой полностью авторегрессионную, нулевой-задержкочную стриминговую систему TTS, которая начинает говорить с первого слова. Она использует монотоническую схему выравнивания и динамическую внешнесть, позволяющую не дожидаться задержки до начала речи. Архитектура VoXtream основана на трех основных компонентах: инкрементальном трансформере фонем, трансформере временных характеристик, прогнозирующему семантические и длительностные токены, и трансформере акустических характеристик, который производит аудиотокены. Эта структура обеспечивает высокую скорость и качество речевого анализа и генерации. ## Результаты Используя 9к-часовую корпус, VoXtream была тестирована в различных условиях, включая выходной стриминговый режим и полностью стриминговый набор. Она показала сравнительное качество с более крупными системами, при этом удовлетворяя требованиям к минимальной задержке. На GPU VoXtream достигла задержки в 102 мс, что является одним из наилучших результатов среди доступных TTS. ## Значимость VoXtream может применяться в различных ситуациях, где необходима быстрая и надежная реагирования, таких как помощьные технологии, умные дома и нейротехнологии. Ее минимальная задержка и высокое качество говорения делают ее привлекательной для развития реального времени TTS. ## Выводы VoXtream достигает своего целевого качества и минимальной задержки благодаря инновационной архитектуре и монотоническому выравниванию. Будущие исследования будут сфокусированы на улучшении качества вывода и оптимизации архитектуры для различных устройств и сценариев.
Annotation:
We present VoXtream, a fully autoregressive, zero-shot streaming text-to-speech (TTS) system for real-time use that begins speaking from the first word. VoXtream directly maps incoming phonemes to audio tokens using a monotonic alignment scheme and a dynamic look-ahead that does not delay onset. Built around an incremental phoneme transformer, a temporal transformer predicting semantic and duration tokens, and a depth transformer producing acoustic tokens, VoXtream achieves, to our knowledge, th...
ID: 2509.15969v1 eess.AS, cs.CL, cs.HC, cs.LG, cs.SD
Авторы:

Kartik Hegde, Rehana Mahfuz, Yinyi Guo, Erik Visser

#### Контекст Аудио-капшнная технология (audio captioning) представляет собой компьютерное зрение, способное описывать аудиосодержимое в текстовом виде. Она находится на грани звукового и текстового анализа и широко применяется в сферах, таких как ассистированная технология, машинное обучение и аудиосинтез. Однако существующие модели, опирающиеся на супервизированное обучение, часто испытывают сложности в адекватном описании аудио, особенно когда данные аннотации недостаточно точны или отсутствуют. Кроме того, создание и аннотация больших данных для тренировки моделей являются дорогостоящими и трудозатратными процессами. Таким образом, есть необходимость в разработке более эффективных и стоимостно эффективных подходов, способных адаптироваться к реальным условиям использования и отражать человеческие предпочтения. #### Метод Мы предлагаем новую архитектуру аудио-капшн-системы, основанную на Reinforcement Learning from Human Feedback (RLHF). Основной идеей является использование живых фидбеков от пользователей для оптимизации модели в процессе обучения. Мы создали Contrastive Language-Audio Pretraining (CLAP)-based reward model, который оценивает парные данные аудио и капшнов, взятых из разных моделей. Этот CLAP-based reward model настраивается на основе знаний, полученных от человеческих экспертов, и используется в качестве функции награды для рефинейма модели. Этот процесс позволяет повысить качество капшнов без необходимости традиционных аннотаций. #### Результаты Мы выполнили ряд экспериментов с популярными данными аудио-капшн, включая AudioCaps и Clari-Cap. Люди оценили качество капшнов в сравнении с базовыми моделями. Наши результаты показали, что наша модель предлагает капшны, которые лучше отражают человеческие предпочтения. Например, наши модели показали значительные улучшения в случаях, когда базовые модели проигрывали в тестах на естественность и точность. Данные эксперименты доказывают, что наш подход значительно улучшает качество аудио-капшнов, даже в ситуациях, когда полностью отсутствуют аннотации. #### Значимость Мы видим применение нашего подхода в различных областях, включая аудио-синтез, компьютерное зрение, ассистированные технологии и машинное обучение. Наша модель способна создавать более приятные и естественные капшны, что повышает пользовательский опыт. Благодаря своей универсальности и стоимостной эффективности, наш подход может быть применен в сценариях с ограниченными ресурсами, таких как малые выборки данных или недоступные для традиционных методов аннотации. #### Выводы Мы демонстрируем, что наш подход, основанный на RLHF, эффективно адаптируется к реаль
Annotation:
Current audio captioning systems rely heavily on supervised learning with paired audio-caption datasets, which are expensive to curate and may not reflect human preferences in real-world scenarios. To address this limitation, we propose a preference-aligned audio captioning framework based on Reinforcement Learning from Human Feedback (RLHF). To effectively capture nuanced human preferences, we train a Contrastive Language-Audio Pretraining (CLAP)-based reward model using human-labeled pairwise ...
ID: 2509.14659v1 eess.AS, cs.LG, cs.SD
Авторы:

Francisco Messina, Francesca Ronchini, Luca Comanducci, Paolo Bestagini, Fabio Antonacci

#### Контекст Генерирующие модели звука, основанные на технологии текст-то-аудио, набирают популярность в сферах, где требуется высококачественная генерация аудиоконтента. Однако существует значимое техническое тревожное явление — дублирование данных (data replication), когда модель в процессе инференса генерирует части своего обучающего набора. Это сокращает разнообразие сгенерированных аудиофайлов и подрывает доверие пользователей. Эта проблема требует решения, особенно в свете возрастающего интереса к генерирующим моделям звука для профессиональных и широкого круга потребителей. #### Метод В данной работе мы предлагаем **Anti-Memorization Guidance (AMG)** — метод, который изменяет процесс выбора сэмплов во время обучения и инференса звуковой диффузионной модели. Наша модель основывается на Stable Audio Open — открытой инфраструктуре с открытым набором данных. Мы используем три различных стратегии внутри AMG: **Noise Guidance**, **Spatial Guidance** и **Temporal Guidance**, каждая из которых призвана уменьшить дублирование звука, сохранив качество и семантическую корректность генерируемых аудиофайлов. Эти стратегии позволяют гармонично оптимизировать процесс генерации, предотвращая нежелательное дублирование. #### Результаты Мы провели эксперименты, сравнивая наши результаты с базовой моделью и другими подходами к уменьшению дублирования. Результаты показали, что AMG существенно понижает уровень дублирования без ухудшения генерируемого звука. Наши эксперименты также подтвердили, что ни одна из стратегий не вызывает снижения качества аудиофайлов или потери семантического содержания. Таким образом, AMG демонстрирует свое эффективность в борьбе с дублированием в текст-то-аудио моделях, оставаясь близко к качеству исходной модели Stable Audio Open. #### Значимость Возможности AMG распространяются на различные сферы, включая создание подкастов, интерактивные приложения, и реалистичный звуковой контент для видеоигр. Этот подход позволяет повысить уровень доверия пользователей к генерируемым моделям звука, устраняя проблему дублирования, которая может испортить впечатление от слушания. Это существенно повышает качество и широту применения текст-то-аудио моделей в цифровой сфере. #### Выводы В результате нашего исследования, мы установили, что **Anti-Memorization Guidance (AMG)** является эффективным способом минимизировать дублирование звука в текст-то-аудио генерирующих моделях. Эту технологию можно использовать для улучшения качества генерируемого контента и увеличения удовлетворенности пользователей. В будущем, мы планируем расширить наш подход на другие
Annotation:
A persistent challenge in generative audio models is data replication, where the model unintentionally generates parts of its training data during inference. In this work, we address this issue in text-to-audio diffusion models by exploring the use of anti-memorization strategies. We adopt Anti-Memorization Guidance (AMG), a technique that modifies the sampling process of pre-trained diffusion models to discourage memorization. Our study explores three types of guidance within AMG, each designed...
ID: 2509.14934v1 eess.AS, cs.LG, cs.SD, eess.SP
Показано 31 - 40 из 68 записей