📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Adapting Language Balance in Code-Switching Speech

2025-10-23

Авторы:

Enes Yavuz Ugan, Ngoc-Quan Pham, Alexander Waibel

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite achieving impressive results on standard benchmarks, large foundational models still struggle against code-switching test cases. When data scarcity cannot be used as the usual justification for poor performance, the reason may lie in the infrequent occurrence of code-switched moments, where the embedding of the second language appears subtly. Instead of expecting the models to learn this infrequency on their own, it might be beneficial to provide the training process with labels. Evaluat...

ID: 2510.18724v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Bayesian Low-Rank Factorization for Robust Model Adaptation

2025-10-23

Авторы:

Enes Yavuz Ugan, Ngoc-Quan Pham, Alexander Waibel

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large speech foundation models achieve strong performance across many domains, but they often require adaptation to handle local needs such as code-switching, where speakers mix languages within the same utterance. Direct fine-tuning of these models risks overfitting to the target domain and overwriting the broad capabilities of the base model. To address this challenge, we explore Bayesian factorized adapters for speech foundation models, which place priors near zero to achieve sparser adaptati...

ID: 2510.18723v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 CarelessWhisper: Turning Whisper into a Causal Streaming Model

2025-08-19

Авторы:

Tomer Krichli, Bhiksha Raj, Joseph Keshet

#### Контекст **Automatic Speech Recognition (ASR)** — одна из наиболее активно развивающихся областей искусственного интеллекта, нацеленная на распознавание и преобразование речи в текст. Существующие модели, такие как **OpenAI Whisper** и **NVIDIA Canary**, достигли отличных результатов в области офлайн-транскрипции. Однако эти модели не предназначены для работы в режиме streaming (реального времени) из-за архитектурных ограничений и методологии тренировки. Это приводит к высокому латенту и неэффективному использованию ресурсов. Латентность становится критичной в сценариях, где временная задержка критична (например, в системах управления железнодорожными проектами). В нашем исследовании мы адресовали эту проблему, предлагая метод по адаптации существующих моделей к требованиям реального времени, обеспечивая локальную оптимальность и низкую сложность. #### Метод Мы предлагаем преобразовать **transformer encoder-decoder** в **causal streaming model** (модель, не ориентирующуюся на будущий контекст). Это достигается путем **fine-tuning** исходного модели, включая как encoder, так и decoder. Используется **Low-Rank Adaptation (LoRA)** для эффективного обучения, а также **weakly aligned dataset** для улучшения выравнивания времени. Мы предложили новый **inference mechanism**, который использует fine-tuned model для **greedy decoding** и **beam search decoding**, обеспечивая локально оптимальные решения. Эта новая архитектура позволяет модели работать в режиме с низкой задержкой, не теряя качества распознавания. Кроме того, наш процесс тренировки улучшает выравнивание времени, что позволяет создавать точные **word-level timestamps**. #### Результаты Мы провели эксперименты с разными **chunk sizes** (менее 300 мс) и сравнили нашу модель с нетрейненговыми потоковыми моделями. Результаты показали, что **fine-tuned model** превосходит уже существующие потоковые модели, при этом используя значительно меньшую сложность. Мы также показали, что наш метод выравнивания времени эффективен и позволяет легко извлекать **word-level timestamps**, которые являются важным ресурсом для пользователей в таких приложениях, как **railway management systems**. Наши **fine-tuned models** скачаны и могут быть использованы для дальнейших исследований и развития в области streaming ASR. #### Значимость Наша работа открывает новые возможности для использования моделей **ASR** в сценариях, где реальное время и низкая задержка критичны, таких как **railway management systems**, **real-time speech transcription** для динамических сред. Мы также доказали, что можно эффективно адаптировать имеющиеся модели, не требуя полного переучивания, что экономит ресурсы. Наш подход имеет **broad applications** в различных областях, таких как **real-time communication systems**, **voice assistants** и **accessibility tools**. Мы положили фундамент для дальнейших исследований в области **causal streaming models** в ASR. #### Выводы Мы успешно

Annotation:

Automatic Speech Recognition (ASR) has seen remarkable progress, with models like OpenAI Whisper and NVIDIA Canary achieving state-of-the-art (SOTA) performance in offline transcription. However, these models are not designed for streaming (online or real-time) transcription, due to limitations in their architecture and training methodology. We propose a method to turn the transformer encoder-decoder model into a low-latency streaming model that is careless about future context. We present an an...

ID: 2508.12301v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 MMFformer: Multimodal Fusion Transformer Network for Depression Detection

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва

Annotation:

Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...

ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Text to Speech System for Meitei Mayek Script

2025-08-13

Авторы:

Gangular Singh Irengbam, Nirvash Singh Wahengbam, Lanthoiba Meitei Khumanthem, Paikhomba Oinam

## Контекст Маніпурский язык является языком, широко распространенным в Северо-Восточной регионе Индии. Он использует систему письменности Meitei Mayek, которая, несмотря на свою богатую историю, сталкивается с проблемами сохранения и широкого применения. Основной причиной этого являются недостаточные технологические решения, которые подходят для этого языка. Особенно сложной является задача развития текстовой речи (Text-to-Speech, TTS), в связи с характерными для Маніпурского языка гармоничными и звуковыми особенностями, недостаточным количеством текстовых ресурсов. Данная работа адресует эти проблемы, предлагая современное решение для развития TTS-системы, которая может помочь сохранить и раскрыть потенциал Маніпурского языка в цифровой среде. ## Метод Для решения задачи разработки TTS-системы для Маніпурского языка было принято решение использовать архитектуру Tacotron 2 для преобразования текста в звуковые сигналы, а HiFi-GAN для генерации естественного звучания. Так как Meitei Mayek имеет уникальную графему и звуковую систему, включая тональную фонологию, был осуществлен ранжирование гласных и согласных, а также создан словарь фонемов Маніпурского языка в соответствии с ARPAbet. Для обучения системы была собрана уникальная голосовая база данных, содержащая звуковые фрагменты, наиболее устойчивые к различным условиям. Архитектура TTS была адаптирована для тональной фонологии, используя сложные нейронные сети, что позволило повысить точность и природность генерируемой речи. ## Результаты В результате экспериментов, проведенных с использованием голосовой базы данных, TTS-система показала высокую точность и природность в генерировании речи. На основе представленных метрик, таких как Mean Opinion Score (MOS) и Perceptual Evaluation of Speech Quality (PESQ), было подтверждено, что голос, синтезированный системой, является естественным и понятным. Эти результаты были проверены как на технических показателях, так и с помощью лицензионных тестов с участием человеческого слуха. Представленная система доказала способность генерировать естественную и ясную речь, даже в условиях нехватки ресурсов и текстовых источников. ## Значимость Разработанная система имеет многочисленные области применения, включая лингвистическое сохранение, технологическую интеграцию и образовательные цели. В первую очередь, она может быть использована для создания голосовых интерфейсов, которые будут поддерживать Маніпурский язык, что значительно будет повышать удобство использования технологий для носителей этого языка. Кром

Annotation:

This paper presents the development of a Text-to-Speech (TTS) system for the Manipuri language using the Meitei Mayek script. Leveraging Tacotron 2 and HiFi-GAN, we introduce a neural TTS architecture adapted to support tonal phonology and under-resourced linguistic environments. We develop a phoneme mapping for Meitei Mayek to ARPAbet, curate a single-speaker dataset, and demonstrate intelligible and natural speech synthesis, validated through subjective and objective metrics. This system lays ...

ID: 2508.06870v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 How Does a Deep Neural Network Look at Lexical Stress?

2025-08-13

Авторы:

Itai Allouche, Itay Asael, Rotem Rousso, Vered Dassa, Ann Bradlow, Seung-Eun Kim, Matthew Goldrick, Joseph Keshet

## Контекст Глубокие нейронные сети (DNN) доказали свою эффективность в обработке языка, особенно в сфере распознавания речи. Однако они часто работают как "черные ящики", при этом возникает вопрос о том, что именно информирует их решения. Это исследование фокусируется на лексической напряженности (stress), которая важна для вербальной интонации и понимания речи. Лексическая напряженность варьируется между словами и внутри слов, влияя на их значение и тонус. Однако существуют недостатки в записях данных для лексической напряженности, так как многие слова отсутствуют в управляемых наборах данных. Данное исследование адресует эти проблемы, используя автоматически сгенерированные наборы данных из речи в реальных условиях. ## Метод Для исследования был создан набор данных из дисиллабных слов в английском языке, с использованием естественных записей речи. Несколько Convolutional Neural Network (CNN) архитектур были обучены классифицировать положение лексической напряженности в словах, основываясь на спектрограммах слов. Были использованы минимальные пары слов с разным положением напряженности (например, протест vs. проТЕСТ). Также, для понимания решений сетей, была применена техника Layerwise Relevance Propagation (LRP). ## Результаты Сети достигли до 92% точности в предсказании положения напряженности. Анализ LRP показал, что сети уделяют большое внимание информации в напряженных слогах, особенно в спектральных свойствах напряженных гласных. Также, они учитывают информацию по всему слову, что позволяет им аккумулировать распределенные признаки напряженности. ## Значимость Результаты имеют практическое значение для области распознавания речи и естественного языка процессинга. Они демонстрируют, что DNN могут извлекать информацию о структуре речи из натуральных данных, что может быть полезно для улучшения технологий распознавания речи. ## Выводы Исследование демонстрирует успех DNN в понимании лексической напряженности, несмотря на недостатки в управляемых данных. Будущие исследования должны сосредоточиться на дальнейшем улучшении интерпретируемости DNN и их применении в реальных ситуациях.

Annotation:

Despite their success in speech processing, neural networks often operate as black boxes, prompting the question: what informs their decisions, and how can we interpret them? This work examines this issue in the context of lexical stress. A dataset of English disyllabic words was automatically constructed from read and spontaneous speech. Several Convolutional Neural Network (CNN) architectures were trained to predict stress position from a spectrographic representation of disyllabic words lacki...

ID: 2508.07229v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 The State Of TTS: A Case Study with Human Fooling Rates

2025-08-09

Авторы:

Praveen Srinivasa Varadhan, Sherry Thomas, Sai Teja M. S., Suvrat Bhooshan, Mitesh M. Khapra

**Резюме** В статье предлагается Human Fooling Rate (HFR) — метрика, оценивающая вероятность того, что машинно-генерируемое речью может быть путана с речью человека. Авторы проводят широкомасштабное тестирование открытых и коммерческих TTS-систем и выявляют ключевые проблемы: (i) теории о «человеческом качестве», основанных на CMOS, часто не проходят человеческий тест на обман, (ii) для точного бенчмаркинга TTS следует использовать данные, где звучание человека достигает высокого HFR, так как сравнение с маловыразительными референсами снижает степень требований, (iii) коммерческие модели подходят к человеческому уровню в zero-shot сценариях, в то время как открытые системы сложностями страдают при работе с естественным разговорным языком, (iv) тестирование на высококачественных данных улучшает реализм, но не полностью приближает результаты к уровню человеческого. Основной вывод — необходимо развивать более реалистичные, человеко-центричные методы оценки в дополнение к субъективным тестам.

Annotation:

While subjective evaluations in recent years indicate rapid progress in TTS, can current TTS systems truly pass a human deception test in a Turing-like evaluation? We introduce Human Fooling Rate (HFR), a metric that directly measures how often machine-generated speech is mistaken for human. Our large-scale evaluation of open-source and commercial TTS models reveals critical insights: (i) CMOS-based claims of human parity often fail under deception testing, (ii) TTS progress should be benchmarke...

ID: 2508.04179v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF