📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 Decoding Selective Auditory Attention to Musical Elements in Ecologically Valid Music Listening

2025-12-09

Авторы:

Taketo Akama, Zhuohao Zhang, Tsukasa Nagashima, Takagi Yutaka, Shun Minamikawa, Natalia Polouliakh

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Art has long played a profound role in shaping human emotion, cognition, and behavior. While visual arts such as painting and architecture have been studied through eye tracking, revealing distinct gaze patterns between experts and novices, analogous methods for auditory art forms remain underdeveloped. Music, despite being a pervasive component of modern life and culture, still lacks objective tools to quantify listeners' attention and perceptual focus during natural listening experiences. To o...

ID: 2512.05528v1 q-bio.NC, cs.LG, cs.SD, eess.AS, eess.SP

arXiv PDF

📄 A Convolutional Framework for Mapping Imagined Auditory MEG into Listened Brain Responses

2025-12-05

Авторы:

Maryam Maghsoudi, Mohsen Rezaeizadeh, Shihab Shamma

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Decoding imagined speech engages complex neural processes that are difficult to interpret due to uncertainty in timing and the limited availability of imagined-response datasets. In this study, we present a Magnetoencephalography (MEG) dataset collected from trained musicians as they imagined and listened to musical and poetic stimuli. We show that both imagined and perceived brain responses contain consistent, condition-specific information. Using a sliding-window ridge regression model, we fir...

ID: 2512.03458v1 eess.SP, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Adapting Language Balance in Code-Switching Speech

2025-10-23

Авторы:

Enes Yavuz Ugan, Ngoc-Quan Pham, Alexander Waibel

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite achieving impressive results on standard benchmarks, large foundational models still struggle against code-switching test cases. When data scarcity cannot be used as the usual justification for poor performance, the reason may lie in the infrequent occurrence of code-switched moments, where the embedding of the second language appears subtly. Instead of expecting the models to learn this infrequency on their own, it might be beneficial to provide the training process with labels. Evaluat...

ID: 2510.18724v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Bayesian Low-Rank Factorization for Robust Model Adaptation

2025-10-23

Авторы:

Enes Yavuz Ugan, Ngoc-Quan Pham, Alexander Waibel

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large speech foundation models achieve strong performance across many domains, but they often require adaptation to handle local needs such as code-switching, where speakers mix languages within the same utterance. Direct fine-tuning of these models risks overfitting to the target domain and overwriting the broad capabilities of the base model. To address this challenge, we explore Bayesian factorized adapters for speech foundation models, which place priors near zero to achieve sparser adaptati...

ID: 2510.18723v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms

2025-10-14

Авторы:

Atul Shree, Harshith Jupuru

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically e...

ID: 2510.09085v1 cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Advancing Speech Understanding in Speech-Aware Language Models with GRPO

2025-09-24

Авторы:

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel

## Контекст Говорящие языковые модели (LLM) становятся все более важными для различных аспектов технологий, включая специальные системы, связанные с распознаванием речи, техническими библиотеками, системами рекомендации и другими. Особенно актуальной стала работа с задачами, возникающими при работе с говорящими языками, таких как автоматическое переводить речи и отвечать на вопросы. Однако существуют различные проблемы, связанные с этим, включая трудности в понимании речи, нормализации входных данных, а также обработке новых типов задач. На практике, многие текущие решения ограничены в том, что они ориентированы на задачи с фиксированными ответами, что не позволяет сделать модели более универсальными. В этом контексте требуется развитие моделей, которые могут подстраиваться под различные типы задач и языков. ## Метод Мы предлагаем метод **Group Relative Policy Optimization (GRPO)**, который используется для обучения моделей **Speech-Aware Large Language Models (SALLMs)**. GRPO широко используется для обучения моделей с целью повышения эффективности и точности. **BLEU** (Bilingual Evaluation Understudy) - это сигнал реWARD, который используется для оценки качества перевода или генерирования текста. Мы используем GRPO в комбинации с BLEU, чтобы оптимизировать модели SALLMs для задач, таких как **Spoken Question Answering** и **Automatic Speech Translation**. Мы также используем off-policy samples (записанные при помощи других моделей) для расширения области исследований и повышения точности моделей. ## Результаты Мы проводили эксперименты с различными данными и сравнили результаты с применением GRPO и стандартной SFT (Sequence-to-Sequence Fine-Tuning). Модель SALLM, обученная с помощью GRPO, показала лучшие результаты по нескольким ключевым метрикам, включая BLEU, ROUGE-L и METEOR. Мы также показали, что использование off-policy samples может улучшить качество генерирования и обработки новых типов задач. Эти результаты показали, что GRPO может быть эффективным методом для обучения моделей SALLM, что позволяет добиться лучших результатов на различных типах говорящих языков. ## Значимость Метод GRPO может быть применен в различных сферах, включая модели для распознавания речи, автоматического перевода речи и решения различных задач лингвистики. Этот подход может использоваться в системах, которые требуют высокого качества генерирования текста и понимания речи. Это позволит сделать модели более универсальными и эффективными для различных языков и типов данных. Например, модель SALLM с GRPO может стать базой для развития новых систем, повышающих точность и мощность автоматического перевода и распознавания речи. ## Выводы Мы представили **GRPO** - метод для обучения моделей Speech-Aware Large Language Models, который показал высокую эффективность по сравнению с сущест

Annotation:

In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based method for training Speech-Aware Large Language Models (SALLMs) on open-format speech understanding tasks, such as Spoken Question Answering and Automatic Speech Translation. SALLMs have proven highly effective for speech understanding tasks. GRPO has recently gained traction for its efficiency in training LLMs, and prior work has explored its application to SALLMs, primarily in multiple-choice tasks. Building on this,...

ID: 2509.16990v1 cs.CL, cs.AI, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Audio2Face-3D: Audio-driven Realistic Facial Animation For Digital Avatars

2025-08-26

Авторы:

NVIDIA, :, Chaeyeon Chung, Ilya Fedorov, Michael Huang, Aleksey Karmanov, Dmitry Korobchenko, Roger Ribera, Yeongho Seol

## Контекст Аудио-движение лица (аудио-драйвен фейс энимайшн) является эффективным способом анимации цифровых аватаров. Он позволяет создавать реалистичные и динамичные образцы движений лица на основе звуковых сигналов. Однако существуют несколько значимых проблем в этой области, включая необходимость в высококачественных данных, сложность построения точных моделей, а также адаптации анимации для различных типов героев и сценариев. Изложенное решение может использоваться в различных цифровых индустриях, включая игроориентированные приложения, виртуальную реальность, а также области интерактивного контента. ## Метод Аудио2Фейс-3D (Audio2Face-3D) — это система, основанная на нейронных сетях, которая использует входные звуковые сигналы для анимации 3D-моделей лиц. Основная архитектура состоит из нескольких модулей: 1. **Акустический модуль** — обрабатывает звуковые сигналы, извлекая признаки, необходимые для анимации. 2. **Ретаргетинг и анимационный модуль** — применяет полученные признаки к 3D-модели лица, адаптируя движения под целевую модель. 3. **Оценочный модуль** — использует метрики качества для анализа результатов анимации. Архитектура задействует глубокие нейронные сети, в том числе квантизационные модели для эффективной обработки данных. ## Результаты Эксперименты проводились с использованием различных типов звуков, включая речь, музыку и другие звуковые выражения. Набор данных, использованный для обучения, включал видеозаписи лиц с аудиоподписями. Результаты показали высокую точность в анимации лица, особенно в сложных сценариях. Авторы также отметили улучшение качества анимации при использовании более объемных данных. ## Значимость Система Audio2Face-3D может применяться в игровых отраслях, виртуальных реальностях, а также в интерактивных приложениях. Он обеспечивает более высокую точность и скорость в анимации лиц, что существенно упрощает процесс разработки. Открытое открытие сетей и инструментов позволяет разработчикам создавать реалистичные модели лиц без значительных инвестиций в ресурсы. ## Выводы Работа Audio2Face-3D является значительным шагом в области аудио-движения лиц. Авторы отмечают, что будущие исследования будут сфокусированы на улучшении моделей для разных типов звуков и повышении точности в разных сценариях. Открытость проекта может способствовать развитию индустрии в отраслях, где реалистичная анимация играет ключевую роль.

Annotation:

Audio-driven facial animation presents an effective solution for animating digital avatars. In this paper, we detail the technical aspects of NVIDIA Audio2Face-3D, including data acquisition, network architecture, retargeting methodology, evaluation metrics, and use cases. Audio2Face-3D system enables real-time interaction between human users and interactive avatars, facilitating facial animation authoring for game characters. To assist digital avatar creators and game developers in generating r...

ID: 2508.16401v1 cs.GR, cs.HC, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 CarelessWhisper: Turning Whisper into a Causal Streaming Model

2025-08-19

Авторы:

Tomer Krichli, Bhiksha Raj, Joseph Keshet

#### Контекст **Automatic Speech Recognition (ASR)** — одна из наиболее активно развивающихся областей искусственного интеллекта, нацеленная на распознавание и преобразование речи в текст. Существующие модели, такие как **OpenAI Whisper** и **NVIDIA Canary**, достигли отличных результатов в области офлайн-транскрипции. Однако эти модели не предназначены для работы в режиме streaming (реального времени) из-за архитектурных ограничений и методологии тренировки. Это приводит к высокому латенту и неэффективному использованию ресурсов. Латентность становится критичной в сценариях, где временная задержка критична (например, в системах управления железнодорожными проектами). В нашем исследовании мы адресовали эту проблему, предлагая метод по адаптации существующих моделей к требованиям реального времени, обеспечивая локальную оптимальность и низкую сложность. #### Метод Мы предлагаем преобразовать **transformer encoder-decoder** в **causal streaming model** (модель, не ориентирующуюся на будущий контекст). Это достигается путем **fine-tuning** исходного модели, включая как encoder, так и decoder. Используется **Low-Rank Adaptation (LoRA)** для эффективного обучения, а также **weakly aligned dataset** для улучшения выравнивания времени. Мы предложили новый **inference mechanism**, который использует fine-tuned model для **greedy decoding** и **beam search decoding**, обеспечивая локально оптимальные решения. Эта новая архитектура позволяет модели работать в режиме с низкой задержкой, не теряя качества распознавания. Кроме того, наш процесс тренировки улучшает выравнивание времени, что позволяет создавать точные **word-level timestamps**. #### Результаты Мы провели эксперименты с разными **chunk sizes** (менее 300 мс) и сравнили нашу модель с нетрейненговыми потоковыми моделями. Результаты показали, что **fine-tuned model** превосходит уже существующие потоковые модели, при этом используя значительно меньшую сложность. Мы также показали, что наш метод выравнивания времени эффективен и позволяет легко извлекать **word-level timestamps**, которые являются важным ресурсом для пользователей в таких приложениях, как **railway management systems**. Наши **fine-tuned models** скачаны и могут быть использованы для дальнейших исследований и развития в области streaming ASR. #### Значимость Наша работа открывает новые возможности для использования моделей **ASR** в сценариях, где реальное время и низкая задержка критичны, таких как **railway management systems**, **real-time speech transcription** для динамических сред. Мы также доказали, что можно эффективно адаптировать имеющиеся модели, не требуя полного переучивания, что экономит ресурсы. Наш подход имеет **broad applications** в различных областях, таких как **real-time communication systems**, **voice assistants** и **accessibility tools**. Мы положили фундамент для дальнейших исследований в области **causal streaming models** в ASR. #### Выводы Мы успешно

Annotation:

Automatic Speech Recognition (ASR) has seen remarkable progress, with models like OpenAI Whisper and NVIDIA Canary achieving state-of-the-art (SOTA) performance in offline transcription. However, these models are not designed for streaming (online or real-time) transcription, due to limitations in their architecture and training methodology. We propose a method to turn the transformer encoder-decoder model into a low-latency streaming model that is careless about future context. We present an an...

ID: 2508.12301v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 MMFformer: Multimodal Fusion Transformer Network for Depression Detection

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва

Annotation:

Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...

ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Text to Speech System for Meitei Mayek Script

2025-08-13

Авторы:

Gangular Singh Irengbam, Nirvash Singh Wahengbam, Lanthoiba Meitei Khumanthem, Paikhomba Oinam

## Контекст Маніпурский язык является языком, широко распространенным в Северо-Восточной регионе Индии. Он использует систему письменности Meitei Mayek, которая, несмотря на свою богатую историю, сталкивается с проблемами сохранения и широкого применения. Основной причиной этого являются недостаточные технологические решения, которые подходят для этого языка. Особенно сложной является задача развития текстовой речи (Text-to-Speech, TTS), в связи с характерными для Маніпурского языка гармоничными и звуковыми особенностями, недостаточным количеством текстовых ресурсов. Данная работа адресует эти проблемы, предлагая современное решение для развития TTS-системы, которая может помочь сохранить и раскрыть потенциал Маніпурского языка в цифровой среде. ## Метод Для решения задачи разработки TTS-системы для Маніпурского языка было принято решение использовать архитектуру Tacotron 2 для преобразования текста в звуковые сигналы, а HiFi-GAN для генерации естественного звучания. Так как Meitei Mayek имеет уникальную графему и звуковую систему, включая тональную фонологию, был осуществлен ранжирование гласных и согласных, а также создан словарь фонемов Маніпурского языка в соответствии с ARPAbet. Для обучения системы была собрана уникальная голосовая база данных, содержащая звуковые фрагменты, наиболее устойчивые к различным условиям. Архитектура TTS была адаптирована для тональной фонологии, используя сложные нейронные сети, что позволило повысить точность и природность генерируемой речи. ## Результаты В результате экспериментов, проведенных с использованием голосовой базы данных, TTS-система показала высокую точность и природность в генерировании речи. На основе представленных метрик, таких как Mean Opinion Score (MOS) и Perceptual Evaluation of Speech Quality (PESQ), было подтверждено, что голос, синтезированный системой, является естественным и понятным. Эти результаты были проверены как на технических показателях, так и с помощью лицензионных тестов с участием человеческого слуха. Представленная система доказала способность генерировать естественную и ясную речь, даже в условиях нехватки ресурсов и текстовых источников. ## Значимость Разработанная система имеет многочисленные области применения, включая лингвистическое сохранение, технологическую интеграцию и образовательные цели. В первую очередь, она может быть использована для создания голосовых интерфейсов, которые будут поддерживать Маніпурский язык, что значительно будет повышать удобство использования технологий для носителей этого языка. Кром

Annotation:

This paper presents the development of a Text-to-Speech (TTS) system for the Manipuri language using the Meitei Mayek script. Leveraging Tacotron 2 and HiFi-GAN, we introduce a neural TTS architecture adapted to support tonal phonology and under-resourced linguistic environments. We develop a phoneme mapping for Meitei Mayek to ARPAbet, curate a single-speaker dataset, and demonstrate intelligible and natural speech synthesis, validated through subjective and objective metrics. This system lays ...

ID: 2508.06870v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

Показано 1 - 10 из 14 записей