📚 Саммари научных статей из arXiv

Найдено 74 результатов по запросу 'eess.AS, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation

2025-09-26

Авторы:

Roy Fejgin, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Ryan Langman Jaehyeon Kim, Subhankar Ghosh, Shehzeen Hussain, Jason Li

## Контекст Speech generation становится все более важной областью исследований в области глубокого обучения, особенно в связи с развитием large language models (LLMs). Одна из основных проблем в этой области — это проблема эффективности при генерации речи, которая связана с различиями между текстовыми токенами и дискретными акустическими кодовыми буферами, используемыми в LLMs. Эти кодовые буферы делятся на несколько наборов (multicodebook structure), что затрудняет процесс параллельной генерации. Несмотря на то, что такие модели позволяют достигать высокой производительности, они часто страдают от уменьшения точности и качества звука. Это влечет за собой необходимость разработки более эффективных стратегий для решения этих проблем, что и стало мотивацией для данного исследования. ## Метод В данном работе предлагается использовать архитектуру Frame-Stacked Local Transformers, которая состоит из двух основных элементов. Первый — это autoregressive transformer, который позволяет предсказывать несколько кодовых буферов одновременно, чтобы уменьшить время генерации. Второй — это MaskGIT-based transformer, который использует маскированную предсказательную модель, чтобы улучшить точность и качество звука. Более того, в работе представлена идея frame stacking, где подряд идущие фреймы генерируются одновременно, что позволяет эффективно использовать ресурсы. Метод также включает в себя исследование различных стратегий decoding, таких как autoregressive и iterative, чтобы понять, какие из них лучше подходят для различных задач, где нужно выбирать между скоростью и качеством. ## Результаты Для проверки эффективности предлагаемой модели, проведено ряд экспериментов с разными наборами данных. Были сравнены различные варианты decoding, включая autoregressive и iterative sampling. Результаты показали, что Frame-Stacked Local Transformers позволяют достигать высокой скорости генерации, не утрачивая качества звука. Также были проанализированы точность и качество звука, полученных при использовании разных моделей, которые показали, что MaskGIT-based transformer дает лучшие результаты в случае необходимости повысить качество. Исследования также показали, что frame stacking может существенно увеличить производительность, не снижая качества. ## Значимость Предлагаемая модель имеет большой потенциал в сфере генерации речи, особенно в сетях, где необходима высокая производительность и качество звука. Модель может быть применена в различных областях, включая синтез речи, генерацию голосов для видео и генерацию речи в реальном времени. Одним из основных преимуществ является то, что Frame-Stacked Local Transformers эффективнее существующих моделей, не требуя того же уровня ресурсов. Это может позволить применять модель в сценариях, где доступ к высокопроизводительной технике

Annotation:

Speech generation models based on large language models (LLMs) typically operate on discrete acoustic codes, which differ fundamentally from text tokens due to their multicodebook structure. At each timestep, models must predict N codebook entries jointly, introducing dependencies that challenge simple parallel prediction approaches. Parallel prediction assumes independence among codebooks, yielding efficient decoding but often at the cost of reduced fidelity. To address this, hierarchical strat...

ID: 2509.19592v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 Advancing Speech Summarization in Multi-modal LLMs with Reinforcement Learning

2025-09-26

Авторы:

Shaoshi Ling, Gang Liu, Guoli Ye, Jinyu Li

## Контекст Современные технологии обработки речи становятся все более важной частью интеллектуальных систем, позволяя анализировать и суммировать многоязычные тексты. Однако трудности в обработке речи, такие как латеральность звука, сложность синтаксиса и грамматики, часто препятствуют полноценному использованию речевых данных в машинном обучении. Это приводит к значительным проблемам в сфере удобства и доступности речевых систем. Целью данного исследования является улучшение способности моделей при помощи развития методов преобразования речевых данных в тексты, чтобы обеспечить более точные, эффективные и гибкие речевые системы. ## Метод Методология предлагаемого подхода основывается на сочетании визуальных и речевых элементов, чтобы получить более полное понимание речи. Базовая модель использует нейронные сети, которые обучаются на больших многоязычных наборах данных, чтобы определять и исправлять ошибки в речи. Для улучшения точности используется нейронный подход, включающий методы распределенного обучения и многоязычные модели. Эта модель обрабатывает речевые данные, активируя слои модели, которые специально разработаны для работы с речи. ## Результаты На основе широкого набора экспериментов показано, что данный подход дает значительные улучшения в сравнении с существующими моделями. В частности, он позволяет достичь более высокой точности в определении сложных структур речи, таких как синтаксические конструкции и разговорные обороты. Эксперименты проводились на наборах данных, включающих различные акценты и языки, что демонстрирует гибкость и универсальность предлагаемого подхода. Такие результаты позволяют утверждать, что новая модель превосходит существующие решения по скорости и точности. ## Значимость Предлагаемая модель может применяться в различных областях, таких как перевод речи, голосовые помощники и автоматическая синтеза речи. Она отличается высокой скоростью обработки и точностью, что делает ее привлекательной для коммерческого использования. Благодаря возможности обрабатывать несколько языков, она может стать ключевым инструментом для глобальных коммуникаций. Это также может способствовать развитию искусственного интеллекта в области естественного языка, улучшая пользовательские интерфейсы и увеличивая доступность речевых систем. ## Выводы В результате этого исследования был разработан новый подход к обработке речевых данных, который демонстрирует значительные улучшения по сравнению с традиционными методами. Будущие исследования будут сфокусированы на улучшении модели для работы с большими наборами данных, а так

Annotation:

Speech summarization is a critical component of spoken content understanding, particularly in the era of rapidly growing spoken and audiovisual data. Recent advances in multi-modal large language models (MLLMs), leveraging the power of LLMs, enable generating textual summaries directly from speech without intermediate transcriptions, while supporting controllable styles and zero-shot generalization. However, open-source MLLMs continue to lag behind the state-of-the-art text-based LLMs, limiting ...

ID: 2509.19631v1 eess.AS, cs.AI, cs.CL

arXiv PDF

📄 Selective Classifier-free Guidance for Zero-shot Text-to-speech

2025-09-26

Авторы:

John Zheng, Farhad Maleki

## Контекст Задача zero-shot text-to-speech (TTS), которая предполагает генерацию речевого сигнала на основе текстового ввода без предварительного обучения для конкретного голоса, сталкивается с значительными вызовами. Особенностью этой задачи является необходимость достичь баланса между точностью репрезентации голоса (fidelity to the target speaker) и поддержанием логики текста (adherence to text content). Данный вопрос также связан с ограниченностью традиционных моделей TTS в области поддержки новых голосов и текстовых стилей без предварительной дорогостоящей тренировки модели. В этом контексте появились различные подходы к улучшению речевой модели, в том числе такие, как увеличение динамической области генерации и внедрение новых методов адаптации. Однако существуют проблемы в достижении краткосрочного равновесия между фидбэком текста и аудиогенерацией. Одним из таких подходов является метод classifier-free guidance (CFG), который использовался в области изображения, но до сих пор не широко применялся в TTS. ## Метод Методология, рассматриваемая в этой работе, основывается на применении CFG в TTS, с фокусом на разделении условий (separated-condition CFG) для получения более тонкой контролируемой генерации. В рамках этого подхода, условия разделяются на две части: одно для спектральной модели, другая - для генерации речевых отсчетов (mel-spectrograms). Это позволяет экспериментировать с различными стратегиями генерации в зависимости от характера текста и особенностей голоса. Кроме того, в работе используются методы адаптации CFG, которые позволяют менять степень влияния гида в зависимости от стадии генерации: на ранних этапах применяется стандартный CFG, а на поздних - стратегия selective CFG. Такой подход предназначен для достижения оптимального баланса между text adherence и speaker similarity. ## Результаты В ходе экспериментов было проведено опробование CFG в различных моделях TTS, включая работу с двумя разными языками - английским и китайским (Mandarin). Было выяснено, что применение CFG, как оно применялось в изображении, не приводит к значительным улучшениям в TTS. Однако, применение разделенных условий CFG позволило достичь значительного улучшения speaker similarity без существенного потери text adherence. Несмотря на это, результаты показали, что эффективность selective CFG значительно зависит от типа текстовой репрезентации. В частности, при использовании двух разных языков (английский и китайский), даже с одинаковой моделью, можно наблюдать различия в выполнении подобного подхода. ## Значимость Полученные результаты могут иметь большое значение в области TTS, особенно для технологий, требующих краткосрочного баланса между текстовой и речевой ин

Annotation:

In zero-shot text-to-speech, achieving a balance between fidelity to the target speaker and adherence to text content remains a challenge. While classifier-free guidance (CFG) strategies have shown promising results in image generation, their application to speech synthesis are underexplored. Separating the conditions used for CFG enables trade-offs between different desired characteristics in speech synthesis. In this paper, we evaluate the adaptability of CFG strategies originally developed fo...

ID: 2509.19668v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

2025-09-25

Авторы:

Seungyoun Shin, Dongha Ahn, Jiwoo Kim, Sungwook Jeon

## Контекст Текстовое воспроизведение речи (Text-to-Speech, TTS) — это технология, позволяющая конвертировать текстовые данные в естественный голосовой вывод. Одной из ключевых проблем в этой области является создание естественной и естественного звучания речи, включая просодические свойства, такие как интонация, ритм и тембр. Несмотря на улучшение TTS-систем, не удается достичь желаемого уровня просодической привлекательности без явного контроля и оценки просодических параметров. Это вызывает значительные ограничения в широком развитии технологии, особенно в сферах, где просодические свойства ключевым образом влияют на качество звука и качество социальной интеракции. ## Метод Наша методология основывается на **Direct Preference Optimization (DPO)**, которая использует небольшое количество человеческих предпочтений для поддержки естественности просодических свойств в TTS. Мы применяем GRPO (Group Relative Policy Optimization) для оптимизации просодических факторов, но в условиях отсутствия явной награды для просодики, полагаемся на взаимодействие с человеком для ручного определения желаемых просодических характеристик. Это позволяет нам минимизировать ошибки и достичь более естественного звучания в TTS. Мы также вводим регуляризацию для стабилизации тренировки, чтобы избежать ложных минимумов. ## Результаты Мы проверяли нашу модель на **KoCC-TTS**, датасете, состоящем из реальных записей голосовых интеракций из корпоративных центров обработки обращений. Наши эксперименты показали, что DPO позволяет получить наивысший уровень желаемости пользователя (ELO) и сравнительно низкие значения CER (Character Error Rate). В сравнении с GRPO и сильными коммерческими алгоритмами, метод DPO демонстрирует значительные улучшения в просодической привлекательности, не прибегая к громоздким или нестабильным методам. Эти результаты указывают на то, что человеческие предпочтения могут стать эффективным инструментом для повышения качества голосных моделей. ## Значимость Наш метод имеет широкое применение в сфере естественного звучания голоса, в частности для TTS в задачах обработки обращений, таск-ориентированных диалогов и автоматических систем телефонной связи. Он также позволяет снизить необходимый объем ручной работы над ручной оценкой просодических свойств, что делает технологию более эффективной и доступной для разработчиков. Будущие исследования будут направлены на улучшение методов оценки естественности просодики и расширение применения наших результатов к другим языкам и стилюм речи. ## Выводы Мы доказали, что **Direct Preference Optimization** является эффективным способом обучения TTS с естественным просодическим звучанием. Наши ре

Annotation:

Recent work reports gains in neural text-to-speech (TTS) with Group Relative Policy Optimization (GRPO). However, in the absence of a verifiable reward for \textit{prosody}, GRPO trained on transcription-oriented signals (CER/NLL) lowers error rates yet collapses prosody into monotone, unnatural speech; adding speaker-similarity further destabilizes training and degrades CER. We address this with an \textit{iterative Direct Preference Optimization (DPO)} scheme that uses only a few hundred human...

ID: 2509.18531v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 SoundCompass: Navigating Target Sound Extraction With Effective Directional Clue Integration In Complex Acoustic Scenes

2025-09-25

Авторы:

Dayun Choi, Jung-Woo Choi

## Контекст Значительные усилия в области звуковой обработки направлены на решение проблемы выделения целевого звука (Target Sound Extraction, TSE) в сложной акустической среде. Целевой звук часто загрязняется другими акустическими сигналами, что снижает качество звука и затрудняет его анализ. Достижения в этой области могут применяться в сферах, таких как контроль звука, реалистичная имитация звуков, звуковые интерфейсы для виртуальных и аugmented реальностей, а также в медицинской диагностике. Однако существующие методы сталкиваются с ограничениями в том, что они неэффективно используют данные о направлении звука (DoA, Direction of Arrival) или недостаточно эффективно интегрируют эти данные, что приводит к потере тонкой спектральной информации. Это призвана решить SoundCompass, новая модель, которая предлагает инновационный подход к интеграции направленных спектральных классов. ## Метод SoundCompass основывается на Spectral Pairwise INteraction (SPIN) module, который анализирует взаимосвязи между каналами в сложных спектрограммах. Благодаря этому модулю, модель может полностью сохранить геометрическую информацию в многоканальных сигналах. Данные о направлении звука (DoA) представлены в форме сферических гармоник (SH). Для интеграции этих данных спектральные классы и DoA объединяются в одном фреймворке, который использует ядро свертки для перекрывающихся поддиапазонов частот. Таким образом, модель удается сохранить тонкую спектральную информацию и эффективно использовать направленные сигналы. Эти данные же повторно используются в iterative refinement strategy, или Chain-of-Inference (CoI), которая повторяет процесс выделения звука, учитывая предыдущие результаты, улучшая точность и результаты. ## Результаты Набор экспериментов проводился на соревновательной базе данных, включающей различные звуковые сигналы и сложные акустические сцены. Результаты показали, что SoundCompass превосходит существующие методы в целевом выделении звука. Это продемонстрировано с помощью метрик, таких как Signal-to-Distortion Ratio (SDR) и Source-to-Interference Ratio (SIR). Метод особенно эффективен в сценах с многоканальными сигналами и сложными интерфейсами, где предыдущие методы оказывались неэффективны. Это позволяет SoundCompass применяться в области аудио-визуальных систем, виртуальной и аugmented реальности, а также в звуковой диагностике. ## Значимость SoundCompass предлагает новый подход к решению проблемы выделения целевого звука, сохраняя полную спектральную и направленную информацию. Его можно применять в сферах, где важно выделить звуковые сигналы в условиях шума и

Annotation:

Recent advances in target sound extraction (TSE) utilize directional clues derived from direction of arrival (DoA), which represent an inherent spatial property of sound available in any acoustic scene. However, previous DoA-based methods rely on hand-crafted features or discrete encodings, which lose fine-grained spatial information and limit adaptability. We propose SoundCompass, an effective directional clue integration framework centered on a Spectral Pairwise INteraction (SPIN) module that ...

ID: 2509.18561v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering

2025-09-25

Авторы:

Jiarui Hai, Mounya Elhilali

#### Контекст Область Sound Event Detection (SED), основная задача которой — определение и разметка звуковых событий в аудио, сталкивается с ограничениями, связанными с недостатком масштабных, таймингово помеченных данных. Этот недостаток затрудняет обучение моделей, которые должны точно распознавать и классифицировать сложные сцены с несколькими событиями. Несмотря на существующие методы аугментации, такие как SpecAugment и Mix-up, они ограничены в разнообразии генерируемых сэмплов и не всегда достаточно эффективны. Текущая мотивация заключается в разработке новых подходов, основанных на генерируемых моделях, которые могут сгенерировать более разнообразные и корректно помеченные данные для SED. #### Метод Метод SynSonic основан на применении текст-к-звуковой диффузионной модели, обученной на низкоуровневых признаках звука, таких как энергия и форма волны. Для обеспечения корректности и подробности генерируемых звуковых событий используется ControlNet, который управляет моделью через энергийную октановку. Для фильтрации генерируемых сэмплов предлагается стратегия joint score filtering, включающую два классификатора: один для глобальной оценки качества, другой — для локального анализа звука. Эти компоненты объединены в архитектуру, которая допускает синтез разнообразных и точно помеченных звуковых событий. #### Результаты Используя данные из тестовых наборов, разработчики проверили SynSonic на задаче SED, используя метрики Polyphonic Sound Detection Scores (PSDS1 и PSDS2). Наблюдается улучшение этих метрик в сравнении со стандартными методами аугментации, что указывает на эффективность SynSonic в повышении точности локализации времени и различения классов. Эксперименты также показывают, что фильтрация сэмплов с помощью joint score filtering стабилизирует результаты и повышает качество генерируемых звуков. #### Значимость SynSonic может быть применен в различных областях, где требуется точное распознавание звуковых событий, таких как обнаружение природы, здравоохранение и безопасность. Одним из основных преимуществ является увеличение разнообразия данных, что позволяет моделям SED лучше адаптироваться к различным сценариям. Будущие работы будут сконцентрированы на улучшении фильтрации сэмплов, интеграции с новыми моделями генеративного моделирования и расширении приложений. #### Выводы SynSonic представляет собой прорыв в генерируемом аугментировании для SED, обеспечивая точные и разнообразные звуковые события. Этот подход показывает потенциал для решения проблемы нехватки данных и может стать важной компонентой в будущих исследованиях в области SED.

Annotation:

Data synthesis and augmentation are essential for Sound Event Detection (SED) due to the scarcity of temporally labeled data. While augmentation methods like SpecAugment and Mix-up can enhance model performance, they remain constrained by the diversity of existing samples. Recent generative models offer new opportunities, yet their direct application to SED is challenging due to the lack of precise temporal annotations and the risk of introducing noise through unreliable filtering. To address th...

ID: 2509.18603v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 FlexSED: Towards Open-Vocabulary Sound Event Detection

2025-09-25

Авторы:

Jiarui Hai, Helin Wang, Weizhe Guo, Mounya Elhilali

## Контекст Звуковое событийное распознавание (Sound Event Detection, SED) является ключевым заданием в области обработки звука, которое стремится к точному выявлению и разметке звуковых событий в аудиозаписях. Традиционные SED-системы ограничены в своей способности обрабатывать широкий объем звуков и эффективно реагировать на нестандартные запросы. Существующие подходы, основанные на классических методах классификации, не могут удовлетворить потребности в гибкой интерактивной обработке, такой как определение звуков по текстовым запросам. Эта проблема особенно актуальна в повседневных сценариях, где пользователи желают использовать свободную терминологию для описания звуков. Кроме того, существующие системы либо не обладают нулевоквантными (zero-shot) способностями, либо имеют слабую адаптивность в условиях небольшого числа обучающих примеров. Эти ограничения призывают к развитию новых подходов, которые могли бы расширить возможности систем SED. ## Метод FlexSED — это система open-vocabulary SED, разработанная на базе предобученного модели аудио-с SELF (Self-supervised Learning, SSL) и CLAP (Contrastive Language-Audio Pre-training) текстового кодировщика. Главным инновационным аспектом FlexSED является использование композиции в кодировщике-декодировщике (encoder-decoder), которая позволяет эффективно применять модель к продолжительным аудиозаписям. Более того, система применяет адаптивную стратегию фьюзинга для объединения сигналов с различных ресурсов. Чтобы улучшить условия обучения, FlexSED интегрирует большие языковые модели (LLMs), которые помогают в выборе эвент-квери (event query) для тренировочных данных, адрессовав проблему отсутствия меток. Эта стратегия позволяет FlexSED значительно повысить свою универсальность и эффективность в условиях ограниченного количества данных. ## Результаты В ходе экспериментов FlexSED была проверена на выборке AudioSet-Strong, которая представляет собой сложную звуковую среду с различными звуковыми событиями. В сравнении с существующими SED-моделями, FlexSED показала значительное улучшение в точности распознавания и скорости обнаружения событий. Особенно выдающимися результатами она проявилась в зоне zero-shot и few-shot обучения, где её устойчивость и гибкость доказались как на новых типах звуков, так и при небольшом количестве примеров. Эти результаты значительно обогащают потенциал применения SED в различных практических сценариях. ## Значимость FlexSED открывает новые перспективы для широкого круга приложений, включая системы управления аудио, автоматизированные анализаторы звука и системы поддержки слухового восприятия.

Annotation:

Despite recent progress in large-scale sound event detection (SED) systems capable of handling hundreds of sound classes, existing multi-class classification frameworks remain fundamentally limited. They cannot process free-text sound queries, which enable more flexible and user-friendly interaction, and they lack zero-shot capabilities and offer poor few-shot adaptability. Although text-query-based separation methods have been explored, they primarily focus on source separation and are ill-suit...

ID: 2509.18606v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Training Flow Matching Models with Reliable Labels via Self-Purification

2025-09-25

Авторы:

Hyeongju Kim, Yechan Yu, June Young Yi, Juheon Lee

## Контекст В области глубокого обучения становится все более важной задачей обеспечения качества данных, используемых для обучения моделей. Одна из основных проблем заключается в том, что данные, которыми обучаются модели, часто содержат неточно помеченные примеры. Эти неточности могут быть вызваны неточностью человеческого анализа, ограничениями моделей тегирования и другими источниками шума. Недостаточно чистые данные ведут к ухудшению качества моделей и их неустойчивости. Эта проблема широко распространена во всех сферах, где используется глубокое обучение, от текстового понимания до звукового распознавания. В настоящей работе мы рассматриваем этот вопрос в контексте применения моделей течения (flow-matching) и предлагаем подход, который позволяет автоматически избавляться от неточных данных во время обучения. ## Метод Мы предлагаем подход, названный Self-Purifying Flow Matching (SPFM), который основывается на принципах формализации моделей течения. SPFM использует модель, которая обучается на данных, для идентификации "шумовых" примеров. В процессе обучения модель сама определяет примеры, которые не соответствуют условиям обучения, и отбрасывает их. Это позволяет избежать зависимости от дополнительных модулей или предварительно обученных моделей. Мы используем гибкий архитектурный подход, который позволяет SPFM "научиться" отбирать данные в течение обучения. Это происходит без явного указания предварительных моделей или внешних источников данных. ## Результаты Мы проводим эксперименты на различных наборах данных, включая текстовые и звуковые данные. В ходе экспериментов мы показываем, что модель, обученная с использованием SPFM, выдает результаты, которые значительно превосходят результаты моделей, обученных на неподчищенных данных. Мы также проверяем нашу модель на данных с шумом в условиях реального мира (in-the-wild data), таких как TITW (датасет с реальным речевым вводом). Мы показываем, что SPFM позволяет модели сохранять высокую точность, даже когда обучение происходит на шумных данных. Эти результаты подтверждают, что SPFM может автоматически очищать данные во время обучения, гарантируя высокое качество модели в любых обстоятельствах. ## Значимость Мы видим применение SPFM в различных областях, таких как звуковое распознавание, текстовое понимание и даже машинное обучение с шумовыми данными. Например, SPFM может быть применим для моделей, которые обучаются на звуковых данных в условиях реального мира, таких как речевые команды для смарт-устройств. Мы видим, что SPFM может преодолеть ограничения существующих подходов, обеспечивая более надежные результаты. В будущем мы планируем расширить SPFM на другие типы данных, такие

Annotation:

Training datasets are inherently imperfect, often containing mislabeled samples due to human annotation errors, limitations of tagging models, and other sources of noise. Such label contamination can significantly degrade the performance of a trained model. In this work, we introduce Self-Purifying Flow Matching (SPFM), a principled approach to filtering unreliable data within the flow-matching framework. SPFM identifies suspicious data using the model itself during the training process, bypassi...

ID: 2509.19091v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Audio-Based Pedestrian Detection in the Presence of Vehicular Noise

2025-09-25

Авторы:

Yonghyun Kim, Chaeyeon Han, Akash Sarode, Noah Posner, Subhrajit Guhathakurta, Alexander Lerch

#### Контекст Аудио-базированное обнаружение пешеходов является сложной задачей, которая до сих пор была исследована только в шумоограниченных средах. Однако в реальном мире шум от транспорта часто преобладает над звуковыми сигналами, связанными с пешеходами. Это создает сложности для правильного обнаружения пешеходов в таких условиях. Мы предлагаем новый датасет, анализ результатов и подробный обзор состояния исследований в области звукового обнаружения пешеходов в условиях транспортного шума. Данные эксперименты позволяют увидеть степень устойчивости алгоритмов к шумам и кросс-средственную оценку моделей в разных условиях. #### Метод Мы предлагаем новый датасет, состоящий из 1321 часов аудиозаписей, собранных вблизи дорог в различных условиях транспортного шума. Записи охватывают различные дорожные условия, включая трафик и городской шум. Каждая запись включает 16kHz аудиофайлы, синхронизированные с 1fps видео и шагами разбиения на кадры. Мы использовали модели YOLOv4 и DETR для обнаружения пешеходов, а также модели глубокого обучения для распознавания звуков в разных условиях. Методы включали искусственное натренирование моделей на шумовых данных, а также проверки моделей на тестовом датасете с разным шумовым фоном. #### Результаты Мы проводили три основных эксперимента: (i) сравнение моделей на шумовом и нет шумовом датасетах для оценки их кросс-средственной оценки; (ii) изучение влияния шума на показатели моделей, включая различные аспекты звукового контекста; (iii) оценка устойчивости моделей к out-of-domain звуковым сигналам. Результаты показали, что модели YOLOv4 и DETR показывают хорошую стабильность на шумовых записях, но их производительность существенно ухудшается при включении звуков транспорта. Мы также обнаружили, что звуковые сигналы, связанные с транспортом, могут оказывать значительное влияние на модели, особенно когда модели обучены на шумных данных. #### Значимость Наша работа имеет значительное значение для разработки моделей звукового обнаружения пешеходов в реальных условиях, в том числе в городских зонах с высоким транспортным шумом. Мы показали, что шум от транспорта может существенно снижать точность моделей, но при этом могут быть использованы методы, которые повышают устойчивость моделей. Это может быть полезно для автоматических систем обнаружения пешеходов в автомобилях, в системах безопасности на дорогах и для систем автоматизации города. #### Выводы Мы показали, что звуковые сигналы, с

Annotation:

Audio-based pedestrian detection is a challenging task and has, thus far, only been explored in noise-limited environments. We present a new dataset, results, and a detailed analysis of the state-of-the-art in audio-based pedestrian detection in the presence of vehicular noise. In our study, we conduct three analyses: (i) cross-dataset evaluation between noisy and noise-limited environments, (ii) an assessment of the impact of noisy data on model performance, highlighting the influence of acoust...

ID: 2509.19295v1 eess.AS, cs.AI, cs.LG, cs.SD

arXiv PDF

📄 Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

2025-09-24

Авторы:

Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland

## Контекст Статья рассматривает применение инновационных Diffusion-based Large Language Models (DLLMs) в области Automatic Speech Recognition (ASR), а именно применение модели LLaDA для оценки текста из речи. Область ASR широко применяется в системах контроля голосом, помощи в ситуациях с недоступностью клавиатуры, автоматизации сервисных процессов и многом другом. Несмотря на прогрессы в ASR, остаются проблемы, такие как высокая ошибка распознавания на нестандартных акцентах или шумных условиях. DLLMs, в частности LLaDA, могут решить эти проблемы благодаря их мощной символической и активной обработке текста, а также их возможностью работы с аудио и текстовыми сигналами. ## Метод Методология основывается на использовании модели LLaDA для ASR, которая работает как дополнительный модуль для процесса декодирования речи. На основе Whisper-LLaMA, авторы испытали различные стратегии обработки текста: random masking, low-confidence masking и semi-autoregressive decoding. Эти методы позволяют LLaDA лучше использовать свои природные способности к bidirectional attention и denoising. Также LLaDA получает дополнительные аудио-кодировки, которые значительно повышают точность распознавания. Для сравнения, они провели эксперименты с "простой" LLaDA без аудио-кодировки, что показало проблему нехватки информации при работе только с текстом. ## Результаты В результатах статьи приводятся результаты ASR с использованием Whisper-LLaDA в качестве дополнительного модуля. Эксперименты проводились на двух датасетах: LibriSpeech и другом домашнем датасете. На test-clean и test-other LibriSpeech, лучшая система с Whisper-LLaDA показала результаты в 2.25%/4.94% WER (Word Error Rate), что является 12.3% относительного улучшения в сравнении с базовой Whisper-LLaMA. В то же время, использование "простой" LLaDA без аудио-кодировки не привело к улучшению. Это подчеркивает важное значение аудио-кодировки для повышения качества распознавания речи. ## Значимость Полученные результаты показывают, что добавление аудио-кодировок в модель LLaDA может значительно повысить качество распознавания речи, особенно на сложных данных. Это открывает новые пути для применения DLLMs в аспектах ASR, таких как распознавание разговорных языков, работа с шумом и специализированные ситуации, такие как работа с нестандартными акцентами. Также, LLaDA может применяться в ситуациях требующих быстрого реагирования, так как в некоторых конфигурациях она вы most cases, Whisper-LLaDA provided faster inference than the Whisper-LLaMA baseline. ## Выводы Лингвистические модели, основанные на Diffusion-based DLLMs, демонстрируют очень высокую потенциальную эффективность в области ASR. Это демонстрируется применением LLaDA как дополнительного модуля для ASR. Однако, необходимо продолжать работу над улучшением точности распознавания и уменьшением в

Annotation:

Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confi...

ID: 2509.16622v1 eess.AS, cs.AI, cs.SD

arXiv PDF

1
2
3
4
5
6
7
8

Показано 31 - 40 из 74 записей