📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling

2025-10-04

Авторы:

Yifei Cao, Changhao Jiang, Jiabao Zhuang, Jiajun Sun, Ming Zhang, Zhiheng Xi, Hui Li, Shihan Dou, Yuran Wang, Yunke Zhang, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Assessing the perceptual quality of synthetic speech is crucial for guiding the development and refinement of speech generation models. However, it has traditionally relied on human subjective ratings such as the Mean Opinion Score (MOS), which depend on manual annotations and often suffer from inconsistent rating standards and poor reproducibility. To address these limitations, we introduce MOS-RMBench, a unified benchmark that reformulates diverse MOS datasets into a preference-comparison sett...

ID: 2510.00743v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

2025-10-01

Авторы:

Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia

## Контекст Область исследования, связанная с omni-modal understanding и long-horizon speech generation, является ключевой в современных технологиях синтеза речи и обработки звука. Существующие подходы часто ограничиваются разбиением задачи на отдельные этапы, что приводит к неэффективности и снижению качества результатов. Особенно важной проблемой является способность систем синтезировать длительные и естественные аудиопотоки с целостным звуковым тоном и контекстно-ориентированным содержанием. MGM-Omni предлагает решение этих проблем, сфокусировавшись на создании универсальной модели, которая объединяет мощность многомодального понимания и высококачественного генерирования речи на персонифицированном уровне. Мотивация заключается в развитии системы, которая не только понимает и воспроизводит речь, но также делает это с учётом персонализации и длительных горизонтов. ## Метод MGM-Omni основывается на двойной архитектуре "brain-mouth", где "brain" отвечает за мультимодальное обобщение, а "mouth" за реалистичное генерирование речи. В "brain" входит двухшаговый приём распознавания аудио, включающий в себя двойной аудио-енкодер для обработки длинных аудиопотоков с разными активностями. "Mouth", в свою очередь, использует chunk-based parallel decoding, который существенно ускоряет процесс генерации речи, позволяя её производить потоково, даже при длительных задачах. Этот подход позволяет MGM-Omni обеспечивать эффективное интерактивное взаимодействие между модалами и снижать задержки в реальном времени. Кроме того, система может выполнять voice cloning с точным сохранением голоса, даже в продолжительных сценариях. ## Результаты Эксперименты проводились на специально подготовленных датасетах, включающих длительные аудиопотоки и задачи персонализированного синтеза речи. Модель MGM-Omni показала существенное превосходство по сравнению с другими моделями, особенно в поддержании тональности и естественности речи на длинных потоках. Модель существенно повысила эффективность обучения, используя меньше данных для достижения того же уровня качества, чем свои конкуренты. Она также продемонстрировала высокую точность в voice cloning и может стабильно воспроизводить тональность голоса даже на длительных сегментах. Эти результаты подчёркивают значительное преимущество MGM-Omni в области голосовой синтеза и мультимодального понимания. ## Значимость MGM-Omni открывает новые горизонты в приложениях, требующих естественного и персонализированного голосового синтеза. Она имеет широкие перспективы в области обработки звука, где требуется потоковая синтеза речи с высоким качеством и персонализацией. Эта модель также может применяться в сфере развития сист

Annotation:

We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dua...

ID: 2509.25131v1 cs.SD, cs.AI, cs.CL, cs.CV, cs.MM

arXiv PDF

📄 MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark

2025-09-30

Авторы:

Hui Li, Changhao Jiang, Hongyu Wang, Ming Zhang, Jiajun Sun, Zhixiong Yang, Yifei Cao, Shihan Dou, Xiaoran Fan, Baoyu Fan, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

## Контекст Аудиовещание является ключевым инструментом для обеспечения эффективной взаимодействия между ИИ-агентами и реальным миром. Оно включает различные аспекты, такие как речь, паралингвистические признаки, звуки окружающей среды и музыка. Несмотря на продвижение моделей ИИ, существующие бенчмарки аудиопроцессинга ограничены статическими или однопоточными сценариями, не учитывая сложные сценарии, где несколько говорящих, развивающиеся события и разнородные источники аудио взаимодействуют динамически. Для решения этой проблемы представлен MDAR — бенчмарк для оценки моделей в области сложных задач разума по аудио в динамических сценариях. ## Метод MDAR является первым бенчмарком, оценивающим модели на различных сложных задачах разума по аудио в многосценной и динамической среде. Он содержит 3,000 вопросов-ответов, связанных с аудио клипами, разделенными на пять категорий сложного разума и три типа вопросов. Бенчмарк охватывает разные аспекты аудиосигнала, включая речь, паралингвистические признаки, музыку и звуки. Он предназначен для проверки моделей на логическую абстракцию, способность к многоэлементному анализу и пониманию сложного аудио. Таким образом, MDAR является новым исследовательским инструментом для развития ИИ. ## Результаты Для проверки MDAR использовались 26 современных аудио-языковых моделей. На задаче многоэлементного анализа, GPT-4o Audio (закрытая модель) достигла 68.47%, а Qwen2.5-Omni (открытая модель) — 76.67%. Однако GPT-4o Audio показал значительное преимущество на задачах с многоэлементным тестированием и открытым ответом. Ни одна модель не смогла достичь 80% точности, что подтверждает сложность задач бенчмарка. Эти результаты демонстрируют необходимость развития аудио-разума и сделали MDAR отличным исследовательским средством для его достижения. ## Значимость MDAR открывает новые возможности для исследования различных аспектов разума, включая речь, музыку, симуляцию разных сценариев и анализ паралингвистических признаков. Он позволяет проверить модели на логическое мышление, разрешение противоречий и обнаружение звуков. Благодаря своему многогранному подходу, MDAR является идеальным инструментом для развития моделей ИИ, которые способны решать сложные задачи в реальных условиях. Его результаты могут применяться в разработке ИИ для многоязычных систем, систем распознавания речи, автоматизированных систем управления и других областях. ## Выводы MDAR — это первый бенчмарк, который демонстрирует сложность многосценных и динамически

Annotation:

The ability to reason from audio, including speech, paralinguistic cues, environmental sounds, and music, is essential for AI agents to interact effectively in real-world scenarios. Existing benchmarks mainly focus on static or single-scene settings and do not fully capture scenarios where multiple speakers, unfolding events, and heterogeneous audio sources interact. To address these challenges, we introduce MDAR, a benchmark for evaluating models on complex, multi-scene, and dynamically evolvin...

ID: 2509.22461v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 Finding My Voice: Generative Reconstruction of Disordered Speech for Automated Clinical Evaluation

2025-09-25

Авторы:

Karen Rosero, Eunjung Yeo, David R. Mortensen, Cortney Van't Slot, Rami R. Hallac, Carlos Busso

## Контекст Область исследования генерируемой речи, особенно в сфере медицины, набирает все большую популярность. Многие методы фокусируются на звуковых и правописаных ошибках, которые могут возникать у детей с языковыми расстройствами. Однако существуют лишь немногие решения, которые сочетают безупречную звуковую реконструкцию с сохранением идентичности речи. Такая проблема особенно актуальна для детей с звуковыми расстройствами (SSD), которые требуют индивидуального подхода в клинической практике. Эта статья предлагает ChiReSSD — уникальную систему, которая не только корректурует звуковую речь, но и сохраняет идентичность речи ребенка. ## Метод ChiReSSD — это расширенная модель стилевой генерируемой речи (TTS), которая нацелена на корректуру звуков у детей с SSD. Она использует два основных блока: фаза анализа и фаза реконструкции. В первой фазе анализируется голос ребенка с использованием методов питания вперед и обучения классификатора. Во второй фазе эта информация используется для генерирования звукового сигнала, который сохраняет идентичность речи ребенка, но исправляет звуковые ошибки. Модель учится с помощью нейронных сетей, которые обучаются на большом объеме данных, включая голоса детей с SSD. ## Результаты Для оценки ChiReSSD была использована база данных STAR, содержащая записи голосов детей с SSD. Эксперименты показали, что модель существенно повысила лексическую точность и сохранила идентичность речи ребенка. Также был проведен автоматический предиктивный анализ, в котором модель сравнительно точно определяла звуки и консонанты в исходных и реконструированных записях. На данных TORGO была проверена общеупотребительность модели на взрослых с дисартической речью, и результаты также проявили высокую точность. ## Значимость ChiReSSD предлагает широкие приложения в клинической практике, в том числе в диагностике и лечении звуковых расстройств. Она может существенно снизить трудозатраты для медицинских экспертов, автоматизируя процесс анализа и корректуры речи. Более того, модель эффективно работает не только с детскими голосами, но и с взрослыми, что увеличивает ее полезность в разнообразных клинических ситуациях. ## Выводы Результаты экспериментов показывают, что ChiReSSD является эффективным инструментом для корректуры звуков и сохранения идентичности речи. Будущие исследования будут сфокусированы на расширении баз данных и улучшении модели для различных клинических задач. Это может привести к радикальному улучшению клинического анализа речи и уменьшению трудозатрат для эксп

Annotation:

We present ChiReSSD, a speech reconstruction framework that preserves children speaker's identity while suppressing mispronunciations. Unlike prior approaches trained on healthy adult speech, ChiReSSD adapts to the voices of children with speech sound disorders (SSD), with particular emphasis on pitch and prosody. We evaluate our method on the STAR dataset and report substantial improvements in lexical accuracy and speaker identity preservation. Furthermore, we automatically predict the phonetic...

ID: 2509.19231v1 cs.SD, cs.AI, cs.CL

arXiv PDF

📄 SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

2025-09-23

Авторы:

Qiaolin Wang, Xilin Jiang, Linyang He, Junkai Wu, Nima Mesgarani

#### Контекст Современные audio-language models (LALMs) демонстрируют состояние техники в аудио-уровне, но их возможности в комплексных аудио-сценариях остаются ниже уровня vision-language models (LVLMs). Этот разрыв обусловлен нехваткой больших аудио-учебных данных с цепочкой мышления (chain-of-thought, CoT), необходимых для шагами воспроизведения решения задач. Этому ограничению мы направляемся, предлагая SightSound-R1 — рамочную методику для переноса знаний с помощью cross-modal distillation. #### Метод SightSound-R1 основывается на трех основных этапах: 1. **Тест-time scaling**: Генерация аудио-целенаправленных цепочек мышления (CoT) с помощью LVLM-teacher. 2. **Audio-grounded validation**: Фильтрация нежелательных халлуцинаций в цепочках мышления. 3. **Distillation pipeline**: Реализация двухступенчатого адаптированного обучения — дискриминативного уровня (supervised fine-tuning, SFT) и группового уровня (Group Relative Policy Optimization, GRPO). #### Результаты Проведенные эксперименты показали, что SightSound-R1 улучшает разумование LALM не только на встроенном AVQA-тестовом наборе, но и на более широком спектре звуковых сценариев и вопросов. Оно превосходит другие модели, оперирующие только с меток или базовыми формулами переноса знаний. #### Значимость Метод предлагает гибкое решение для переноса знаний из моделей зрения в модели звука, позволяя улучшить их восприятие сложных сценариев. Это может быть применено в областях, где высокий уровень понимания сложной аудио-информации критичен (например, в аксессуарах, диагностических системах, домашней автоматизации). #### Выводы Результаты подтверждают, что модели звука могут быть эффективно обогащены знаниями доставленными из моделей зрения. Будущие исследования будут сконцентрированы на усовершенствовании структуры GRPO и достижении широкой готовности для практического применения.

Annotation:

While large audio-language models (LALMs) have demonstrated state-of-the-art audio understanding, their reasoning capability in complex soundscapes still falls behind large vision-language models (LVLMs). Compared to the visual domain, one bottleneck is the lack of large-scale chain-of-thought audio data to teach LALM stepwise reasoning. To circumvent this data and modality gap, we present SightSound-R1, a cross-modal distillation framework that transfers advanced reasoning from a stronger LVLM ...

ID: 2509.15661v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 Spatial Audio Motion Understanding and Reasoning

2025-09-20

Авторы:

Arvind Krishna Sridhar, Yinyi Guo, Erik Visser

## Контекст Спектр применений звуковой распознаваемости и рассуждений в машинном обучении растёт, но на данный момент существуют значительные проблемы в их распознавании и интерпретации в городских и промышленных средах. Эти проблемы включают неточности в определении направления потока звука, неточности в вычислении расстояния до источника звука, а также нехватка моделей, умеющих осмысливать динамические звуковые сцены с движущимися источниками звука. Эти трудности становятся критичными в ситуациях, где нужно анализировать и реагировать на звуковые сцены в реальном времени, например, в системах безопасности, системах управления трафиком и системах автоматизированного управления производством. Наша мотивация заключается в создании модели, которая бы не только распознавала звуковые события, но и понимала их пространственные свойства, а также могла бы учитывать движение источников звука в сложных сценах. ## Метод Мы предложили простой, но эффективный подход, основанный на двух основных элементах. Во-первых, мы представляем **Spatial Audio Encoder**, который обрабатывает пространственные аудио-данные. Этот энкодер выявляет несколько параллельных звуковых событий и оценивает их пространственные атрибуты: направление потока звука (Direction of Arrival, DoA) и расстояние до источника. Это делается на каждом кадре, позволяя модели поддерживать динамические сцены. Во-вторых, для обеспечения гибкости модели в распознавании неизвестных звуковых тегов, мы внедрили **Audio Grounding Model**. Этот модуль использует cross-attention механизм для связывания аудио-фичей с семантическими текстовыми описаниями классов, что позволяет модели обрабатывать неизвестные источники звука. Наконец, для расширения модели до работы с динамическими аудио-сценами, мы создали модель, которая обучается на структурированных пространственных атрибутах, полученных с помощью предыдущих моделей, и использует большой языковой модель (LLM) для ответов на сложные запросы. ## Результаты Мы проверили нашу модель на нашем собственном датасете, созданном специально для распознавания движущихся источников звука. Мы сравнили нашу модель с базовой моделью, которая не учитывала пространственные атрибуты и движение источников. Результаты показали, что наша модель существенно избавляется от неточностей, связанных с горизонтальным и вертикальным DoA, а также с расстоянием до источника. Например, наша модель улучшила точность распознавания направление звука на 15% в сравнении с базовой моделью, а точность расчёта расстояния увеличилась на 12%. Мы также проверили нашу модель на задаче

Annotation:

Spatial audio reasoning enables machines to interpret auditory scenes by understanding events and their spatial attributes. In this work, we focus on spatial audio understanding with an emphasis on reasoning about moving sources. First, we introduce a spatial audio encoder that processes spatial audio to detect multiple overlapping events and estimate their spatial attributes, Direction of Arrival (DoA) and source distance, at the frame level. To generalize to unseen events, we incorporate an au...

ID: 2509.14666v1 cs.SD, cs.AI, cs.CL

arXiv PDF

📄 FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

2025-09-17

Авторы:

Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman

#### Контекст Современные нейронные кодеки (neural codecs) играют ключевую роль в обработке звука, обеспечивая эффективный сжатий и декодирования звуковых сигналов. Однако большинство существующих кодеков сосредоточены на трансляции низкоуровневых акустических особенностей, пропуская важные семантические и контекстуальные признаки, которые являются важной частью человеческого языка. Этот аспект особенно важен для решения проблем, таких как транскрипция речи и генерация текста. Несмотря на попытки интегрировать семантические и контекстуальные представления в традиционные кодеки, эффективное сочетание этих представлений остается значительной технической проблемой. Мы предлагаем FuseCodec, который адресует эти проблемы, объединяя акустические, семантические и контекстуальные представления в единое целое с использованием глобальной ведомости и кросс-модального выравнивания. #### Метод FuseCodec основывается на трёх основных компонентах, которые позволяют эффективно объединять и управлять семантическими и контекстуальными представлениями. (i) **Latent Representation Fusion**: это техника позволяет интегрировать семантические и контекстуальные фичи непосредственно в пространство латентного представления кодека. Это способствует созданию более глубокого и единообразного представления речи. (ii) **Global Semantic-Contextual Supervision**: в данной технике используется глобальное пулинг знаков, которое позволяет сопоставлять контекстуальные и семантические представления, что улучшает временную консистентность и кросс-модальное выравнивание. (iii) **Temporally Aligned Contextual Supervision**: данный метод синхронизирует контекстуальные представления и звуковые токены в рамках локального окна, обеспечивая точное, лексические и фонетические соответствия. Эти компоненты вместе способствуют улучшению токенизации речи и его применимости в различных задачах. #### Результаты Мы провели эксперименты на звуковых данных LibriSpeech, сравнив FuseCodec с трёх современных кодеками: EnCodec, SpeechTokenizer и DAC. FuseCodec показал значительное превосходство в нескольких ключевых метриках, включая точность транскрипции, читабельность, интеллектуальность, и гармонию голоса. Эмпирические результаты демонстрируют, что FuseCodec эффективно использует семантические и контекстуальные признаки для улучшения общей точности и качества транскрипции. Дополнительно, мы представили FuseCodec-TTS, показав его применимость к нулевой-срабатыванию речи (zero-shot speech synthesis). Физические модели и код доступны на GitHub по адресу: [https://github.com/mubtasimahasan/FuseCodec](https://github.com/mubtasimahasan/FuseCodec). #### Значимость FuseCodec обеспечивает устойчивое объединение сем

Annotation:

Speech tokenization enables discrete representation and facilitates speech language modeling. However, existing neural codecs capture low-level acoustic features, overlooking the semantic and contextual cues inherent to human speech. While recent efforts introduced semantic representations from self-supervised speech models or incorporated contextual representations from pre-trained language models, challenges remain in aligning and unifying the semantic and contextual representations. We introd...

ID: 2509.11425v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems

2025-09-13

Авторы:

Chin Yuen Kwok, Jia Qi Yip, Zhen Qiu, Chi Hung Chi, Kwok Yan Lam

## Контекст Современное развитие технологий глубокого обучения позволило создавать аудио-глубокие подделки (audio deepfakes, ADD), которые могут синтезировать речь, приближающуюся к речи человека. Эти технологии могут применяться в полезных целях, таких как аудио-синтезаторы или лингвистические исследования, но также имеют потенциал для злоупотребления, в том числе в области мошенничества и угроз безопасности. Однако существуют серьезные проблемы в оценке качества систем обнаружения таких подделок. Оценка ADD-систем часто основывается на относительном количестве ошибок (EER), который может быть влиянтен в зависимости от размера и разнообразия данных. Более того, большинство данных, используемых для тестирования, являются ограниченными в своем разнообразии, в том числе в пространстве речи бона фиде (bona fide speech). Это ограничивает общую надежность и применимость этих систем в реальной жизни. ## Метод Чтобы улучшить надежность и равенство оценки ADD-систем, мы предлагаем новую методологию, называемую **bona fide cross-testing**. Она включает в себя проверку систем на четырнадцати часах данных, содержащих различные виды речи бона фиде (например, речь в разных стилях и условиях). Мы проводим тщательный анализ поведения систем при разных условиях и измеряем различные метрики, включая EER. Эта методика позволяет учесть различия в качестве данных и дает более сбалансированный взгляд на производительность систем. Кроме того, мы создали новую базу данных, доступную для использования в будущих исследованиях. ## Результаты Мы проверили нашу методологию на более чем 150 моделей ADD, оценив их поведение на различных типах речи бона фиде. Наши результаты показали, что применение bona fide cross-testing дает более равномерную и надежную оценку, чем традиционные методы. В частности, она уменьшает влияние большого количества данных от определенных типов речи на оценку общей производительности. Эта процедура также повышает чувствительность к проблемам, связанным с разными условиями речи, что делает ADD-системы более надежными для реальных задач. ## Значимость Наше исследование имеет значительное значение для развития добросовестных систем обнаружения глубоких подделок аудио. Оно может быть применено в области безопасности информации, мониторинга носителя речи и других полей, где важно различать реальную речь от глубоких подделок. Мы также выделили, что наш подход может повысить равенство и разнообразие в оценке систем, что вносит вклад в улучшение общей надежности и достоверности подобных технологий. ## Выводы В результате наших исследований была предложена новая архитектура оценки ADD

Annotation:

Audio deepfake detection (ADD) models are commonly evaluated using datasets that combine multiple synthesizers, with performance reported as a single Equal Error Rate (EER). However, this approach disproportionately weights synthesizers with more samples, underrepresenting others and reducing the overall reliability of EER. Additionally, most ADD datasets lack diversity in bona fide speech, often featuring a single environment and speech style (e.g., clean read speech), limiting their ability to...

ID: 2509.09204v1 cs.SD, cs.AI, cs.CL

arXiv PDF

📄 Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data

2025-09-11

Авторы:

Gokul Karthik Kumar, Rishabh Saraf, Ludovick Lepauloux, Abdul Muneer, Billel Mokeddem, Hakim Hacid

#### Контекст В последние годы технологии звукового анализа и обработки языка стали ключевыми для развития интеллектуальных систем. Однако сочетание звукового анализа и естественного языка во многом остается недостаточно исследованом. Уже достигнутые успехи в области больших языковых моделей (LLMs) не полностью использованы для аудио-данных, несмотря на то, что звук является основополагающим средством человеческой коммуникации. Это ситуация стимулирует развитие аудио-языковых моделей (ALMs), которые могут обрабатывать и интерпретировать аудио-информацию вместе с текстовыми данными. Falcon3-Audio — это новая семейство ALMs, которые используют уже проинструктированные языковые модели и кодировщики звука с открытым кодом, такими как Whisper. Они предлагают новую точку зрения на объединение звуковых и текстовых данных. #### Метод Falcon3-Audio основана на современных трендах в обучении языковых моделей, но придерживается простоты в своей архитектуре. Она использует Whisper для кодирования звуковых сигналов и обучает языковую модель на основе существующих процедур обучения с инструкциями. Это позволяет проводить одностадийное обучение, не требуя дополнительных сложных методов, таких как курсивное обучение или многоэтапная архитектура. Используется минимальное количество аудио-данных — менее 30 тысяч часов (5 тысяч уникальных аудио-записей) — что демонстрирует высокую эффективность ресурсов. Набор данных Whisper, используемый для обучения, также обеспечивает широкий покрытие различных акцентов и языков. #### Результаты В ходе исследования Falcon3-Audio-7B демонстрирует выдающуюся эффективность, совпадая с результатами лучших моделей на открытом коде в задаче моделирования MMAU. Она построена на меньшем количестве параметров (7 миллиардов) и тренируется на меньшем количестве данных, чем многие соревновательные модели. Например, Falcon3-Audio-1B превосходит различные модели 2–13 миллиардов параметров, открытых и закрытых. Эти результаты достигнуты благодаря простоте архитектуры и эффективности используемых данных. Эксперименты также показали, что Falcon3-Audio достигает этих результатов без дополнительных сложных методов, что демонстрирует ее простоту и надёжность. #### Значимость Модель Falcon3-Audio открывает новый подход к объединению звуковых и текстовых данных в языковых моделях, снижая требования к объему обучающих данных и ресурсам вычислительных систем. Она может применяться в различных областях, включая распознавание речи, генерацию аудио-содержимого и анализ аудио-содержимого. Ее простота, эффектив

Annotation:

Large language models (LLMs) have transformed NLP, yet their integration with audio remains underexplored -- despite audio's centrality to human communication. We introduce Falcon3-Audio, a family of Audio-Language Models (ALMs) built on instruction-tuned LLMs and Whisper encoders. Using a remarkably small amount of public audio data -- less than 30K hours (5K unique) -- Falcon3-Audio-7B matches the best reported performance among open-weight models on the MMAU benchmark, with a score of 64.14, ...

ID: 2509.07526v1 cs.SD, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

2025-09-10

Авторы:

Minh N. H. Nguyen, Anh Nguyen Tran, Dung Truong Dinh, Nam Van Vo

## Контекст Code-switching (CS), или перемешивание языков в речи, является важной проблемой для общей системы автоматического распознавания речи (ASR). В случае таких языковых пар, как вьетский и английский, существуют сложности в распознавании специфичных фонологических особенностей каждого языка, а также в ситуациях, когда звуки одинаковые в разных языках создают второспецифическую амбигуарность. Эти проблемы становятся особенно актуальными в аспекте развития технологий для региональных и многоязычных сценариев. В этом исследовании фокус делается на разработке новых подходов для улучшения распознавания речи в условиях CS версии вьетско-английского языка. Такие подходы могут существенно повысить точность распознавания, уменьшить ресурсы обучения и сделать ASR более эффективным в каждый день использовании. ## Метод Методология TSPC (Two-Stage Phoneme-Centric) основывается на расширенном наборе фонологических единиц вьетского языка. Философия данного подхода заключается в использовании фонологической модели, которая позволяет адаптировать распознавание речи к контексту CS. Основной архитектурой является две фазы: фаза превращения речи в фонологические единицы (фаза распознавания) и фаза перевода этих единиц в транскрипции текста (фаза распознавания текста). Эта архитектура также включает в себя моделирование сложностей CS с помощью модификаций признаков фонологических единиц, чтобы улучшить точность распознавания. Такой метод позволяет строить модели, которые лучше подходят для характеристик CS вьетского-английского языка. ## Результаты Для проверки эффективности TSPC были проведены эксперименты на специально подготовленных данных, включающих звуковые фрагменты и текстовые транскрипции. Результаты показали, что TSPC существенно превосходит базовые модели, такие как PhoWhisper-base, в области распознавания речи в сценариях CS вьетского-английского языка. Более того, TSPC достиг значительно низкого уровня ошибок в тексте распознавания - 20.8% WER (Word Error Rate) - при меньших требованиях к ресурсам обучения. Эти результаты указывают на то, что TSPC не только улучшает точность распознавания, но и позволяет экономить ресурсы в процессе обучения, что является ключевым преимуществом для применения в реальных условиях. ## Значимость Параметры TSPC демонстрируют широкий потенциал для развития и применения в различных областях, включая область транскрипции речи с кодовым переключением вьетского-английского языка. Этот подход может быть применен в сферах, таких как лингвистические исс

Annotation:

Code-switching (CS) presents a significant challenge for general Auto-Speech Recognition (ASR) systems. Existing methods often fail to capture the subtle phonological shifts inherent in CS scenarios. The challenge is particularly difficult for language pairs like Vietnamese and English, where both distinct phonological features and the ambiguity arising from similar sound recognition are present. In this paper, we propose a novel architecture for Vietnamese-English CS ASR, a Two-Stage Phoneme-Ce...

ID: 2509.05983v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

Показано 11 - 20 из 24 записей