📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Hitomi Jin Ling Tee, Chaoren Wang, Zijie Zhang, Zhizheng Wu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The evaluation of intelligibility for TTS has reached a bottleneck, as existing assessments heavily rely on word-by-word accuracy metrics such as WER, which fail to capture the complexity of real-world speech or reflect human comprehension needs. To address this, we propose Spoken-Passage Multiple-Choice Question Answering, a novel subjective approach evaluating the accuracy of key information in synthesized speech, and release SP-MCQA-Eval, an 8.76-hour news-style benchmark dataset for SP-MCQA ...
ID: 2510.26190v1 cs.SD, cs.CL, eess.AS
Авторы:

Harshavardhana T. Gowda, Lee M. Miller

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We present a neuromuscular speech interface that translates electromyographic (EMG) signals collected from orofacial muscles during speech articulation directly into audio. We show that self-supervised speech (SS) representations exhibit a strong linear relationship with the electrical power of muscle action potentials: SS features can be linearly mapped to EMG power with a correlation of $r = 0.85$. Moreover, EMG power vectors corresponding to different articulatory gestures form structured and...
ID: 2510.23969v1 cs.SD, cs.CL, eess.AS
Авторы:

Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Despite rapid progress in Multi-modal Large Language Models and Large Audio-Language Models, existing audio benchmarks largely test semantics that can be recovered from text captions, masking deficits in fine-grained perceptual reasoning. We formalize audio 4D intelligence that is defined as reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six attributes under absolute and relative regimes)...
ID: 2510.24693v1 cs.SD, cs.CL, eess.AS
Авторы:

Bohan Li, Wenbin Huang, Yuhang Qiu, Yiwei Guo, Hankun Wang, Zhihan Li, Jing Peng, Ziyang Ma, Xie Chen, Kai Yu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Audio Language Models (LALMs), which couple acoustic perception with large language models (LLMs) to extract and understand diverse information from audio, have attracted intense interest from both academic and industrial communities. However, existing LALMs are highly sensitive to how instructions are phrased, affecting both (i) instruction-following rates and (ii) task performance. Yet, no existing benchmarks offer a systematic and comprehensive evaluation of this sensitivity. We introdu...
ID: 2510.23558v1 cs.SD, cs.CL, eess.AS
Авторы:

Phuong Tuan Dat, Tran Huy Dat

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent advancements in speech synthesis technologies have led to increasingly sophisticated spoofing attacks, posing significant challenges for automatic speaker verification systems. While systems based on self-supervised learning (SSL) models, particularly the XLSR-Conformer architecture, have demonstrated remarkable performance in synthetic speech detection, there remains room for architectural improvements. In this paper, we propose a novel approach that replaces the traditional Multi-Layer ...
ID: 2510.06706v1 cs.SD, cs.CL, eess.AS
Авторы:

Xilin Jiang, Hannes Gamper, Sebastian Braun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Acoustic scene perception involves describing the type of sounds, their timing, their direction and distance, as well as their loudness and reverberation. While audio language models excel in sound recognition, single-channel input fundamentally limits spatial understanding. This work presents Sci-Phi, a spatial audio large language model with dual spatial and spectral encoders that estimates a complete parameter set for all sound sources and the surrounding environment. Learning from over 4,000...
ID: 2510.05542v1 cs.SD, cs.CL, eess.AS
Авторы:

Vishnu Raja, Adithya V Ganesan, Anand Syamkumar, Ritwik Banerjee, H Andrew Schwartz

#### Контекст Автоматическое распознавание речи (ASR) является важной областью исследований в сфере искусственного интеллекта, которая позволяет людям взаимодействовать с технологиями с помощью речи. Однако существуют значительные проблемы при распознавании речи, произносимой людьми с необычным речью, такими как дисартрия. Несмотря на высокую точность современных ASR-систем для типичной речи, они часто проваливаются при работе с необычной речи. Данная статья основывается на мотивации повысить точность распознавания речи для таких подпространств. Для этого необходимо разработать модели, которые могут объединить общие модели (нормативные) и более частные модели, учитывающие индивидуальности речи. #### Метод Мы использовали четыре стратегии моделирования для распознавания необычной речи: (a) **нормативные модели**, обученные на типичной речи без любого личного адаптирования, (b) **идиосинкретные модели**, полностью персонализированные для каждого человека, (c) **дизартрические нормативные модели**, обученные на речи других дисартрических говорящих, и (d) **дизартрические идиосинкретные модели**, которые объединяют подходы, начиная с общей модели речи, а затем адаптируясь к индивидуальному речевому паттерну данного говорящего. Мы провели эксперименты на данных, содержащих речи с дисартрией, использовали метрики ошибок слов (WER) для оценки точности распознавания. #### Результаты Модель **дизартрического идиосинкретного** подхода показала лучший результат, предоставив значительно более низкую ошибку слов (WER) по сравнению с идиосинкретным подходом. Она работала с меньшим количеством личных данных (128 обучающих примеров), сравнительно с более широким набором данных (256 примеров), но по-прежнему показала лучший результат (36.43 WER на 128 примеров против 36.99 WER на 256 примеров). Было также выяснено, что адаптация только спектральной части речи (метод спектрального тюнинга) приводит к самым значительным повышениям качества в распознавании речи. #### Значимость Результаты показали, что комбинирование общих моделей речи (нормативных) и моделей, адаптированных к индивидуальности речи, может значительно повысить точность распознавания речи для подпространств, таких как дисартрия. Этот подход может быть применен для распознавания речи в других специфических группах, где естественная речь отличается от нормативных моделей. Данные же результаты могут быть использованы для снижения частоты ошибок в распознавании речи и для повышения того, насколько естественным будет взаимодействие между людьми и системами ASR. #### Выводы Наша исследователь
Annotation:
State-of-the-art automatic speech recognition (ASR) models like Whisper, perform poorly on atypical speech, such as that produced by individuals with dysarthria. Past works for atypical speech have mostly investigated fully personalized (or idiosyncratic) models, but modeling strategies that can both generalize and handle idiosyncracy could be more effective for capturing atypical speech. To investigate this, we compare four strategies: (a) $\textit{normative}$ models trained on typical speech (...
ID: 2509.16718v1 cs.SD, cs.CL, eess.AS
Авторы:

Pei Zhang, Yiming Wang, Jialong Tang, Baosong Yang, Rui Wang, Derek F. Wong, Fei Huang

## Контекст Simultaneous speech-to-text translation (Simul-S2TT) — это задача перевода речи в текст в реальном времени. Она предполагает вывод перевода по мере поступления исходного звукового сигнала, а не ожидание завершения речи. Однако существующие подходы часто требуют изменения архитектуры моделей для реализации этой функциональности. Эта ситуация становится более сложной с появлением больших звуково-языковых моделей (LALMs), которые требуют эффективного использования уже существующих моделей без значительных модификаций. Целью настоящей работы является рассмотрение возможности активации Simul-S2TT в LALMs за счет модификации выборки данных и оптимизации процесса обучения, а не изменения модели. ## Метод Мы предлагаем **SimulSA** (Simultaneous Self-Augmentation) — метод, основанный на рандомизации процесса обучения и создании частично-согласованных пар текста и звука. Модель получает репрезентацию речи, а затем сгенерированный текст, но с небольшим сдвигом во времени. Это позволяет модели обучаться на потоковых данных без изменения архитектуры. Мы используем часть обучающих данных для Simul-S2TT и добавляем их в общую выборку для обучения модели. Это позволяет модели активировать Simul-S2TT-сигналы, не требуя дополнительных изменений в архитектуре или стратегии декодирования. ## Результаты Мы провели эксперименты на больших звуково-языковых моделях, используя многоязычные данные для Simul-S2TT. Использование SimulSA позволило увеличить производительность на **10%** в метриках BLEU, хотя добавлено всего **1%** данных Simul-S2TT к обучающей выборке. Эффективность этого подхода продемонстрирована на тестах с реальным временем для славянских и южноазиатских языков. Мы также проанализировали качество перевода в зависимости от размера выборки Simul-S2TT в обучающих данных, установив значительный показатель повышения качества, даже при незначительном добавлении новых данных. ## Значимость Результаты показывают, что SimulSA может быть применено для активации Simul-S2TT в уже обученных моделях без изменений модели или стратегии декодирования. Это открывает широкие возможности для области перевода речи на языки с разными структурами. Метод также показывает потенциал для экономии ресурсов в обучении моделей Simul-S2TT, так как не требует обучения с большим количеством данных. Мы видим перспективы SimulSA в области мультимодального перевода, включая перевод видео и текста. ## Выводы Мы представили SimulSA, метод, который активирует Simul-S2TT-сигналы в больших звуково-языковых моделях без изменений в архитектуре. Мы продемонстрировали, что даже незначительное добавление Simul-S2TT-данных в обучающую выбор
Annotation:
Simultaneous speech-to-text translation (Simul-S2TT) aims to translate speech into target text in real time, outputting translations while receiving source speech input, rather than waiting for the entire utterance to be spoken. Simul-S2TT research often modifies model architectures to implement read-write strategies. However, with the rise of large audio-language models (LALMs), a key challenge is how to directly activate Simul-S2TT capabilities in base models without additional architectural c...
ID: 2509.15692v1 cs.SD, cs.CL, eess.AS
Авторы:

Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu

## Контекст На протяжении многих лет, искусственный интеллект (ИИ) продолжает демонстрировать удивительные достижения в области зрительно-языковых задач. Однако, несмотря на эти успехи, применение ИИ в рамках мультимодальных символьных музыкальных задач остается недостаточно изученным. Музыка, как мультимодальная сфера, требует не только визуального распознавания, но и глубокого понимания музыкальных структур, темпа, гаммы и многих других аспектов. Значительные усилия были направлены на развитие мультимодальных бо LARGE LANGUAGE MODELS (MLLMs), которые способны обрабатывать и анализировать текст, изображения и даже аудио. Однако, тестирование этих моделей на реальных музыкальных ситуациях и музыкальных символах остается практически неразвитым. Авторы статьи предлагают WildScore, первый бенчмарк, ориентированный на оценку моделей MLLMs в рамках реальных символьных музыкальных задач. Он представляет собой коллекцию реальных музыкальных символов, сопровождаемых вопросами и обсуждениями пользователей, что дает широкий погружающийся характер задач музыкального анализа. ## Метод WildScore является первым бенчмарком, созданным для оценки моделей MLLMs в реальных условиях музыкального анализа. Он состоит из реальных музыкальных символов, собранных из широкого спектра музыкальных произведений. Каждый экземпляр в бенчмарке сопровождается пользовательскими вопросами и обсуждениями, что дает шанс для тестирования не только визуальной способности модели, но и ее понимания структур музыки. Для того, чтобы систематизировать оценку, авторы предлагают также специальную тематическую категорию, которая включает как общие, так и детальные музыкальные темы. Это позволяет делать запросы не только на визуальном уровне, но и на семантическом. Формат оценки представляет собой несколько выборок вопросов, что дает возможность сравнивать модели по количеству достижений и потенциальной сложности задач, которые они могут решать. ## Результаты В ходе экспериментов, проведенных на WildScore, авторы сравнили результаты нескольких существующих MLLMs. Эксперименты проводились с использованием различных музыкальных символов и вопросов, сгенерированных пользователями. Результаты показали, что хотя некоторые модели показали высокие результаты в базовых задачах, они всё же сталкивались с трудностями при работе с более сложными задачами, особенно теми, которые включают не только визуальное понимание, но и глубокое музыкальное анализирование. Эти результаты указывают на продолжающуюся необходимость в развитии моделей, которые могут более точно интерпретировать музыкальные с
Annotation:
Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, their reasoning abilities in the multimodal symbolic music domain remain largely unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to interpret real-world music scores and answer complex musicological queries. Each instance in WildScore is source...
ID: 2509.04744v1 cs.SD, cs.CL, eess.AS
Авторы:

Ali Abouzeid, Bilal Elbouardi, Mohamed Maged, Shady Shehata

#### Контекст Говорящее чувство — важное аспект улучшения интерактивности между человеком и компьютером, особенно для низкоресурсных языков, таких как арабский. Однако работа по этой теме сталкивается с проблемами, такими как нехватка данных и ограниченные исследования. Настоящая работа предлагает ArabEmoNet, модель, которая решает эти проблемы и показывает выдающиеся результаты. Отличается лишь тем, что в настоящем подходе используются Mel-спектрограммы с 2D-конволюциями, что позволяет сохранить ключевые эмоциональные признаки, которые могут быть потеряны в традиционных аппаратах. #### Метод ArabEmoNet является легковесной архитектурой, которая сочетает 2D-конволюционную сеть с BiLSTM и пристальным вниманием. Модель обрабатывает Mel-спектрограммы, что позволяет локализовать критические эмоциональные признаки. Модель имеет 1 миллион параметров, что делает ее применимой для ресурсами, ограниченных по доступу. Эта гибкость делает ее идеальной для реалий. #### Результаты Проведенные эксперименты показали, что ArabEmoNet показывает выдающиеся результаты в рамках задачи распознавания эмоций в речи на арабском языке. Модель обладает тем, что выдает лучший результат с меньшим числом параметров. Это делает ее эффективной и масштабируемой для применения в реальных условиях. #### Значимость ArabEmoNet может применяться в различных сферах, таких как социальные сети, компьютерные игры, искусственный интеллект, и т. д. Модель обладает высокой точностью и низким потреблением ресурсов, что делает ее привлекательной для реальных приложений. #### Выводы Результаты показывают, что ArabEmoNet является эффективным решением для распознавания эмоций на арабском языке. Она открывает пути для будущих исследований в области распознавания эмоций в речи, особенно для низкоресурсных языков.
Annotation:
Speech emotion recognition is vital for human-computer interaction, particularly for low-resource languages like Arabic, which face challenges due to limited data and research. We introduce ArabEmoNet, a lightweight architecture designed to overcome these limitations and deliver state-of-the-art performance. Unlike previous systems relying on discrete MFCC features and 1D convolutions, which miss nuanced spectro-temporal patterns, ArabEmoNet uses Mel spectrograms processed through 2D convolution...
ID: 2509.01401v1 cs.SD, cs.CL, eess.AS
Показано 1 - 10 из 17 записей