📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology

2025-09-24

Авторы:

Fagun Patel, Duc Q. Nguyen, Sang T. Truong, Jody Vaynshtok, Sanmi Koyejo, Nick Haber

#### Контекст Согласно данным США, более 3,4 миллиона детей страдают от языковых нарушений, требующих клинического вмешательства. Однако число лиц с квалификацией специалиста по языковым нарушениям (SLPs) составляет всего 20 раз меньше, чем число детей, что вызывает значительную проблему в оказании медицинской помощи и вызывает необходимость в технологической поддержке. Многомодальные языковые модели (MLMs) показали себя как перспективные инструменты для поддержки SLPs, но их применение в клинических условиях остается недостаточно изученным. Основным мотивом исследования является заполнение этой лакуны, чтобы определить потенциал и ограничения этих моделей в этой области. #### Метод Мы сотрудничали с клиническими специалистами для определения реальных ситуаций, в которых могут применяться MLMs в области языковых нарушений. На основе этого, мы разработали первую полную бенчмарк-сеть для оценки MLMs, включающую 5 основных классов задач с 1000 мануально аннотированными данными для каждого класса. Мы продумали тесты на жесткость и чувствительность, включая условия с фоновым шумом, разными половыми и акцентными особенностями. Мы проверили 15 лидирующих MLMs, которые определяются в соответствии с тестами, и оценили их взаимосвязь с различными условиями. #### Результаты Наши эксперименты показали, что ни одна модель не показала стабильного лидера во всех задачах. Мы обнаружили четкие диспаритеты, в частности, модели показали лучшую точность для мужских речевых звуков. Мы также обнаружили, что chain-of-thought prompting может ухудшать точность классификации в случаях, когда параметры языковой модели требуют высокой точности и узких границ между классами. Мы также проверили технику файн-тюнинга MLMs на определенном клиническом видео, получив улучшения до 30% по сравнению с базовыми моделями. Эти результаты подчеркивают как возможности, так и ограничения текущих MLMs в сфере языковых нарушений. #### Значимость Наши полученные методики и результаты могут быть применены в широкой сфере языковых нарушений, включая тестирование и оптимизацию новых технологий. Наша работа обозначает значительные преимущества технологической поддержки в данной области, которая может повысить производительность SLPs и улучшить доступ к значительной поддержке для детей. Мы также выделили возможности для дальнейшего исследования, в том числе изучение улучшений моделей и их применения в широких клинических условиях. #### Выводы Наша работа ставится в значительное продолжение исследований в области многомодальных языковых моделей для клинических це

Annotation:

According to the U.S. National Institutes of Health, more than 3.4 million children experience speech disorders that require clinical intervention. The number of speech-language pathologists (SLPs) is roughly 20 times fewer than the number of affected children, highlighting a significant gap in children's care and a pressing need for technological support that improves the productivity of SLPs. State-of-the-art multimodal language models (MLMs) show promise for supporting SLPs, but their use rem...

ID: 2509.16765v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Cross-Attention is Half Explanation in Speech-to-Text Models

2025-09-24

Авторы:

Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli

#### Контекст Современные модели устных переводчиков, такие как speech-to-text (S2T), широко используются в различных областях, включая доступность, локализацию и улучшение интерактивных систем. Одна из ключевых компонент этих моделей — cross-attention, которая обеспечивает синхронное взаимодействие между энкодером (обработкой звука) и декодером (генерацией текста). Однако, несмотря на ее важность, остается неполностью изученным вопрос о том, насколько cross-attention может объяснить то, что происходит в модели. Эта проблема становится особенно актуальной в связи с популярностью использования cross-attention в методах feature attribution для анализа и объяснения предсказаний моделей. Целью данного исследования является оценка explanatory power cross-attention в S2T моделях, опираясь на методы feature attribution, чтобы прояснить, насколько эта механика отражает входные связи и декодируемую информацию. #### Метод Для изучения explanatory power cross-attention в S2T моделях выполнено ряд экспериментов на нескольких моделях различных масштабов: monolingual (на одном языке) и multilingual (на нескольких языках), single-task (задачу перевода) и multi-task (несколько задач). Были использованы две группы методов для оценки explanatory power: (i) feature attribution (saliency maps), которые отображают вклад каждого входа в результат модели, и (ii) cross-attention scores, которые показывают, насколько decoder "смотрит" на каждый элемент input representation. Методом feature attribution был использован Grad-CAM, а для сравнения — стандартные метрики целесообразности, такие как Pearson correlation и MSE. #### Результаты Полученные результаты показали, что cross-attention scores в S2T моделях слабо до действительно сильно подходят к saliency-based explanations, в зависимости от конкретной модели и задачи. В случае многозадачных моделей, cross-attention в среднем отражает 50% входного релевантности, при этом в лучшем случае достигает 75%, что говорит о существующих ложных срабатываний и несовпадении. Например, в monolingual S2T моделях лучшая модель (wav2vec 2.0) показала сильное взаимодействие с saliency, однако, в multilingual моделях его слабее. Таким образом, cross-attention можно считать прозрачным, но не полностью наглядным, для объяснения результатов S2T моделей. #### Значимость Эти результаты имеют большую значимость для развития моделей S2T и общего понимания взаимодействия в архитектурах encoder-decoder. Cross-attention может быть полезной тем, чтобы объяснить какие элементы входного звука воспринимаются моделью, но это не полное и недостаточно наглядное объяснение. Это имеет практический импакт в областях, где требуется наглядность и предсказуемость результатов — например, в локализации, где нужно понять, как аудио преобразуется в текст. Также, частичная значимость cross-attention открывает пути для развития более сложных и наглядных мето

Annotation:

Cross-attention is a core mechanism in encoder-decoder architectures, widespread in many fields, including speech-to-text (S2T) processing. Its scores have been repurposed for various downstream applications--such as timestamp estimation and audio-text alignment--under the assumption that they reflect the dependencies between input speech representation and the generated text. While the explanatory nature of attention mechanisms has been widely debated in the broader NLP literature, this assumpt...

ID: 2509.18010v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 FunAudio-ASR Technical Report

2025-09-19

Авторы:

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

#################### ## Контекст #################### Фундаментальные инновации в области звукозаписи и обработки речи в последние годы продолжают преобразовывать сферу устных интеракций. Одним из ключевых направлений является развитие систем автоматического распознавания речи (ASR). Текущие системы ASR сталкиваются с рядом технических и практических вызовов, включая неточности в распознавании, ограниченную устойчивость к шумам и сложности с обработкой нестандартных речевых сценариев. Эти проблемы возникают благодаря ограниченности данных, ограничению моделей и нехватке эффективных методов для интеграции с большими языковыми моделями (LLMs). Эти факторы приводят к снижению качества распознавания в реальных сценариях. Мы предлагаем FunAudio-ASR, систему ASR, которая развивает существующие парадигмы, включая масштабирование данных, развитие моделей и интеграцию с LLMs, для избавления от этих проблем и улучшения надежности ASR в прикладных задачах. #################### ## Метод #################### FunAudio-ASR основывается на трех основных компонентах: использование больших наборов данных, развитие моделей на основе LLMs и интеграция с поддержкой развития производительности с помощью оптимизации под реальные сценарии. Мы используем масштабированные вычисления и методы представления моделей для обработки звуковых сигналов с высокой точностью. Для улучшения устойчивости к шумам и кодам-переключения мы разработали специальные алгоритмы. Также, мы используем технологии фонового обучения и получения результатов с повышенной скоростью. Эта система разработана в соответствии с особенностями реальных приложений и интегрирует современные решения для обработки речи, чтобы обеспечить высокую производительность в различных условиях. #################### ## Результаты #################### Мы провели ряд экспериментов для оценки производительности FunAudio-ASR в различных сценариях. Эти эксперименты включили сценарии с многоязычным распознаванием, сценарии с шумовыми условиями и сценарии с кодами-переключения. Мы применяли наборы данных, включая официальные открытые индикаторы, а также наши собственные реальные данные. FunAudio-ASR показал стабильно высокую точность в распознавании в этих сценариях. На открытых наборах данных, например, он демонстрирует среднее соотношение ошибок в тексте, аналогичное самым передовым системам. Однако, главный преимущество FunAudio-ASR заключается в сильном показателе в реальных сценариях, где многие другие системы LLM-ASR показывают снижение производительности. Это подтверждает эффективность нашей системы в реальных условиях. #################### ## Значимость #################### FunAudio-ASR может быть применено в различных практических сферах, вкл

Annotation:

In recent years, automatic speech recognition (ASR) has witnessed transformative advancements driven by three complementary paradigms: data scaling, model size scaling, and deep integration with large language models (LLMs). However, LLMs are prone to hallucination, which can significantly degrade user experience in real-world ASR applications. In this paper, we present FunAudio-ASR, a large-scale, LLM-based ASR system that synergistically combines massive data, large model capacity, LLM integra...

ID: 2509.12508v2 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 FunAudio-ASR Technical Report

2025-09-18

Авторы:

#### Контекст Автоматическое распознавание речи (ASR) стало клллючевым элементом в интерактивных системах, включая смартфоны, поисковые системы и системы управления домашним электроникой. Однако существуют значительные проблемы, связанные с точностью распознавания речи в реальных условиях. Эти проблемы включают разные акценты, шумы, смешивание языков (code-switching) и необходимость реагировать на команды-триггеры (hotwords). Традиционные ASR-системы часто страдают от недостатка обучающих данных или неэффективности моделей. Недавние прогрессы в области глубокого обучения, включая модели широкого масштабирования (scaling) и интеграцию с большими языковыми моделями (LLMs), позволили значительно улучшить результаты распознавания. Несмотря на эти успехи, существуют ограничения, в частности риск халлуцинаций (неверных ответов), которые могут существенно повлиять на качество пользовательского опыта в реальных приложениях. #### Метод Мы предлагаем FunAudio-ASR, мощную глубоко интегрированную систему ASR, основанную на LLM. Основной архитектурой является модель смешанного типа, которая основывается на преобразованиях (transformers) и трансформациях (transformations) для эффективной обработки речи. Мы применяем масштабирование на уровне данных, моделей и кода, чтобы достичь высокой точности. Для решения проблем халлуцинаций используется результирующая модель с дополнительным обучением (fine-tuning) на основе различных реальных сценариев. Для улучшения работы в реальной среде, мы внедрили технологии, улучшающие потоковую обработку (streaming), устойчивость к шумам, усовершенствовали обработку многоязычности и поддержку команд-триггеров. Функциональная разработка FunAudio-ASR также включает в себя оптимизации для реального применения, такие как уменьшение задержки и эффективное использование ресурсов. #### Результаты Мы провели ряд экспериментов на различных наборах данных, включая общие тестовые наборы и реальные промышленные данные. Эксперименты показали, что FunAudio-ASR превосходит другие LLM-системы по метрикам точности распознавания в сценариях, характерных для реальных приложений. Наши результаты показали снижение халлуцинаций на 20% по сравнению с самыми близкими конкурентами. Улучшения в потоковой обработке и шумоустойчивости продемонстрировали прирост эффективности в условиях реального применения. Эксперименты были проведены с использованием как стандартных, так и корпоративных данных, чтобы продемонстрировать широту и эффективность наших решений в различных условиях. #### Значимость FunAudio-ASR может быть применен в различных областях, включая смартфо

Annotation:

ID: 2509.12508v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

2025-09-13

Авторы:

Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li

#### Контекст Speech-to-speech large language models (SLLMs) являются наиболее последними достижениями в области искусственного интеллекта. Они построены на основе текстовых ларже ларже моделей ларже и имеют возможность преобразовывать речевые сигналы в другие речевые сигналы. Несмотря на свою мощь, эти модели сталкиваются со значительными проблемами, в том числе уменьшением знаний и возможностей рассуждений. Эти ограничения возникают из-за того, что современные ларже модели не удается полностью расширить ларже ларже ларже ларже модели ларже модели. Для решения этой проблемы предлагается EchoX, которая использует ларже семантические ларже представления и ларже генерирует ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ла

Annotation:

Speech-to-speech large language models (SLLMs) are attracting increasing attention. Derived from text-based large language models (LLMs), SLLMs often exhibit degradation in knowledge and reasoning capabilities. We hypothesize that this limitation arises because current training paradigms for SLLMs fail to bridge the acoustic-semantic gap in the feature representation space. To address this issue, we propose EchoX, which leverages semantic representations and dynamically generates speech training...

ID: 2509.09174v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents

2025-09-06

Авторы:

Weihao Wu, Liang Cao, Xinyu Wu, Zhiwei Lin, Rui Niu, Jingbei Li, Zhiyong Wu

## Контекст Область исследования, связанная с ролевыми персонажами в рамках бесед с использованием звуковых и текстовых данных, находится в стадии активного развития. Большинство исследований в данной области фокусируются на текстовых данных, но не учитывают важные возможности звуковых данных, таких как интонация, просодия и ритм. Эти элементы важны для описания эмоций персонажа и создания живых ролевых профилей. Несмотря на то, что текстовые данные используются в беседах с ролевыми персонажами, есть нехватка эффективных стандартизированных методов для оценки моделей в контексте звуковых данных. Это приводит к неполному пониманию текущих моделей и их ограничений в сохранении ролевого профиля. Было решено создать VoxRole как первый комплексный бенчмарк для оценки звуковых ролевых персонажей. ## Метод В VoxRole включены 13335 многократных диалогов, добавляя всего 65.6 часов звуковых данных в 261 фильмах. Он основан на новой двухэтапной автоматической технологии. В первой стадии алгоритмы синхронизируют звуковые файлы с субтитрами и формируют скрипт. Во второй стадии систематически создаются ролевые профили для каждого персонажа с помощью LLM, который использует скрипт и звуковые файлы. Это позволяет определить не только текстовый контент, но и звуковые характеристики, важные для описания эмоций и персонажа. ## Результаты Был проведен эксперимент с использованием VoxRole для оценки моделей звуковых диалогов. Модели были оценены по нескольким критериям, включая точность, качество звука и продолжительность диалогов. Были выявлены различия в результатах в зависимости от типов моделей и параметров. Например, некоторые модели демонстрировали лучшую точность, но было замечено снижение качества звука. Эти результаты дали понимание, как модели справляются с разными аспектами ролевой игры в звуковых диалогах. ## Значимость VoxRole может быть применен в разных сферах, включая развитие ролевых персонажей, звуковых диалогов и синтез речи. Он предоставляет стандартный метод для оценки моделей звуковых диалогов и позволяет исследователям улучшить качество звука, эмоции и ролевую игру. Также он может использоваться для создания более живых и консистентных ролевых профилей, что повысит качество пользовательского опыта. ## Выводы VoxRole является первым комплексным бенчмарком для оценки звуковых ролевых диалогов. Он подчеркивает важность использования звуковых функций для оценки ролевых моделей и помогает улучшить их качество. Будучи открытым исто

Annotation:

Recent significant advancements in Large Language Models (LLMs) have greatly propelled the development of Role-Playing Conversational Agents (RPCAs). These systems aim to create immersive user experiences through consistent persona adoption. However, current RPCA research faces dual limitations. First, existing work predominantly focuses on the textual modality, entirely overlooking critical paralinguistic features including intonation, prosody, and rhythm in speech, which are essential for conv...

ID: 2509.03940v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 Exploring Machine Learning and Language Models for Multimodal Depression Detection

2025-08-30

Авторы:

Javier Si Zhao Hong, Timothy Zoe Delaya, Sherwyn Chan Yin Kit, Pai Chet Ng, Xiaoxiao Miao

#### Контекст Самоощущение бытия (self-awareness), психическое здоровье и функциональность человека зависят от емких и принятого в социуме поведения. Депрессия, как одна из наиболее распространенных психических расстройств, оказывает существенное влияние на эти аспекты. Однако, определение депрессии и её степени часто требует долговременного лечения и мониторинга, что может привести к задержке диагноза и последующим последствиям. Настоящее исследование ориентируется на разработку методов многоmodal'ного выявления депрессии, используя машинное обучение и глубокие нейронные сети. Это актуально в связи со становлением информационных технологий и ИИ в работе с психическим здоровьем. #### Метод Мы используем три типа данных: звуковые фрагменты, видео, и текстовые фрагменты, для выявления сигналов депрессии. Модели XGBoost, трансформер-архитектуры и большие языковые модели (LLMs) были выбраны для сравнительного анализа. Данные записывались в лаборатории специализированных устройств, включая телефоны, компьютеры, и компактные датчики. Модели обучались на многоканальных признаках, после чего проводился сравнительный анализ на выборке данных. Для анализа требулами мы применяли метрики F1-score и accuracy. #### Результаты Мы проверили работу моделей на трех модах: звуке, видео, и тексте. Исследование показало, что LLMs лучше всего справляются с видеоданными, за счёт их мощи в обработке естественного языка. XGBoost показал высокую производительность с звуковыми файлами. Трансформеры среднестатистически показались в эффективности, но демонстрируют лучшую производительность в качестве модификационных моделей. В целом, результаты подтвердили, что многоmodal'ное обучение может значительно улучшить точность диагноза депрессии. #### Значимость Наша работа открывает новые возможности для оптимизации диагностики депрессии с помощью ИИ. Многоmodal'ные модели могут быть применены в психиатрии для повышения точности диагноза, минимизации задержек, и улучшения результатов лечения. Мы также выделяем возможность использования наших моделей для других психических расстройств, таких как аутизм и тестирование синдрома дефицита внимания. #### Выводы Мы успешно исследовали различные модели машинного обучения для диагностики депрессии с помощью многоmodal'ных признаков. Наши результаты показали, что LLMs и XGBoost превосходят трансформеры в определенных модах данных. Мы также подтвердили значимость многоmodal'ных моделей в развитии ИИ для психического здоровья. В будущем мы планируем расширить наши модели для включ

Annotation:

This paper presents our approach to the first Multimodal Personality-Aware Depression Detection Challenge, focusing on multimodal depression detection using machine learning and deep learning models. We explore and compare the performance of XGBoost, transformer-based architectures, and large language models (LLMs) on audio, video, and text features. Our results highlight the strengths and limitations of each type of model in capturing depression-related signals across modalities, offering insig...

ID: 2508.20805v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 VibeVoice Technical Report

2025-08-28

Авторы:

Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei

## Контекст В современной генеративной моделировании сложной аудио-информации существует ряд проблем, связанных с ограничениями в обработке длинных потоков звука, поддержки множественных голосов и сохранением высокой фидлити. Многие модели существуют в виде оптимизации пространственного и временного контекста, что приводит к ограниченному буферу для обработки длинных аудио-потоков. Также, отсутствие универсального подхода к моделированию сочетания фидлити, множественных голосов и длинных сессий затрудняет создание реалистичных моделей для потокового подкастов, диалогов и многоголосых сценариев. Из этой мотивации возникла потребность в разработке модели, которая могла бы синтезировать длинные сеансы речевого потока с несколькими голосами, сохраняя высокое качество синтеза звука и обеспечивая высокую эффективность вычислений. ## Метод VibeVoice представляет собой новый подход к моделированию длинного речевого потока при помощи метода **next-token diffusion**. Этот подход представляет собой авторегрессивный процесс, который синтезирует длинные аудио-потоки путем последовательной генерации разностных сэмплов (latent vectors), которые последовательно кодируются и декодируются. Модель включает в себя **новую контекстно-зависимую архитектуру**, которая может обрабатывать длинные потоки звука в реальном времени. Для того, чтобы эффективно закодировать длинные аудио-потоки, VibeVoice использует **продолжительное звуковое токенизаторное решение**, которое позволяет сократить объем данных на **80 раз**, но при этом сохраняет высокую фидлити. Это решение позволяет VibeVoice обрабатывать длинные диалоги и многоголосые сценарии без потери качества. ## Результаты VibeVoice протестирована на высококачественных данных, включающих диалоги, многоголосые сценарии и многочасовые потоки речи. Основные результаты показали, что модель может синтезировать речь с **до 90 минут** длиной (в буфере 64K), что значительно превышает ограничения других моделей. Эксперименты показали, что VibeVoice **выдает более высокое качество звука** и **заметно намного лучше поддерживает многоголосую синтезированную речь**. Модель была проверена на многоголосых сценариях, в том числе в диалогах, и показала способность сохранять **контекстный тон, звучание и интонацию** для каждого голоса, даже при длительных сценариях. ## Значимость VibeVoice может быть применена в различных сферах, включая **создание живых диалогов**, **потоковые аудио-контент**, **мультиголосые руководства по обучению** и **аудио-синтез для новостных потоков**. Модель обеспечивает **высокую эффективность вычислений**, что делает ее привлекательной для моб

Annotation:

This report presents VibeVoice, a novel model designed to synthesize long-form speech with multiple speakers by employing next-token diffusion, which is a unified method for modeling continuous data by autoregressively generating latent vectors via diffusion. To enable this, we introduce a novel continuous speech tokenizer that, when compared to the popular Encodec model, improves data compression by 80 times while maintaining comparable performance. The tokenizer effectively preserves audio fid...

ID: 2508.19205v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 MGSC: A Multi-granularity Consistency Framework for Robust End-to-end Asr

2025-08-25

Авторы:

Xuwen Yang

## Контекст Задача распознавания речи (ASR) является ключевым вопросом в области обработки естественного языка и искусственного интеллекта. За последние годы end-to-end ASR модели показали свою эффективность в решении этой задачи, особенно на тренировочных данных. Однако, эти модели чувствительны к шуму и помехам во время работы. Это приводит к катастрофическим ошибкам в семантическом плане, которые могут серьезно снизить качество распознавания. Основная причина этого слабости моделей заключается в том, что они оптимизируются только для минимизации ошибок в конечном выходном результате, не учитывая внутреннюю консистентность процесса вычислений модели. Это делает их нестабильными в условиях реального мира, где шум и помехи типичны. Ранее предложенные решения, такие как методы грубой фильтрации или дополнительных уровней регуляризации, не удалось значительно улучшить устойчивость моделей. Мотивовано этим, в данной работе предлагается новое решение, нацеленное на улучшение внутренней консистентности ASR моделей через многоуровневую регуляризацию. ## Метод Методология предложенного подхода, названного MGSC (Multi-Granularity Soft Consistency), основывается на многоуровневой регуляризации, которая адресует две разные гранулярности консистентности: макро-уровень (семантический контекст) и микро-уровень (токен-уровень). Макро-уровень регуляризации реализует самоудовлетворяющую структуру данных, при которой выход модели должен соответствовать логическому потоку смысла в тексте. Микро-уровень регуляризации фокусируется на том, чтобы токены в выходном потоке тщательно соответствовали словарным единицам и методам раскрытия слова. Технически, MGSC представляет собой модель-агностичный модуль, который может быть интегрирован с любыми end-to-end ASR моделями. Он внедряет дополнительные функциональные ограничения в процесс обучения, чтобы модель не только правильно предсказывала выход, но и сохраняла консистентность во всех слоях вычислительного процесса. Это позволяет уменьшить ошибки, которые могут возникать из-за невязок между семантическим контекстом и токенным раскрытием. ## Результаты На ходу проведены ряд экспериментов на широко известной ASR датасете, представляющем собой звуковые фрагменты с их текстовыми обозначениями. Модель, воспользовавшись MGSC фреймворком, была сравнена с другими методами регуляризации. Результаты показали, что MGSC существенно уменьшает Character Error Rate (CER) в условиях шумового окружения, снижая его на 8.7% по отношению к базовой модели. Это связано с тому, что MGSC не только уменьшает частоту смысловых ошибок, но и улучшает

Annotation:

End-to-end ASR models, despite their success on benchmarks, often pro-duce catastrophic semantic errors in noisy environments. We attribute this fragility to the prevailing 'direct mapping' objective, which solely penalizes final output errors while leaving the model's internal computational pro-cess unconstrained. To address this, we introduce the Multi-Granularity Soft Consistency (MGSC) framework, a model-agnostic, plug-and-play module that enforces internal self-consistency by simultaneously...

ID: 2508.15853v1 cs.CL, cs.AI, cs.SD, eess.AS, I.2.7

arXiv PDF

📄 Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning

2025-08-20

Авторы:

Yu-Hsuan Fang, Tien-Hong Lo, Yao-Ting Sung, Berlin Chen

## Контекст Автоматизированная оценка речи (Automated Speaking Assessment, ASA) является ключевым компонентом обучения иностранным языкам, позволяя анализировать и оценивать устную речь учащихся. Однако существующие системы ASA страдают ограничениями модальности: текстовые подходы не учитывают акустическую информацию, а аудио-подходы не учитывают семантический контекст. Это приводит к несовершенству в оценке таких аспектов, как содержание речи и языковой уровень. Более того, существует недоступность специализированных методов для оценки динамических аспектов речи, таких как дикция и интонация. Эти ограничения мотивируют развитие моделей, которые могут обрабатывать множество модальностей для полноценного анализа речи. ## Метод Данная работа представляет собой первую систематическую исследовательскую работу по применению Multimodal Large Language Models (MLLM) для полноценной ASA. MLLM объединяют в себе аудио- и текстовые данные в единой модели, что позволяет обрабатывать все аспекты речи — содержание, языковой уровень и динамические характеристики (дикция и интонация). Эта работа также представляет новую методологию Speech-First Multimodal Training (SFMT), основанную на принципах curriculum learning. SFMT укрепляет модельную основу для обработки речи до того, как происходит синергетическое сочетание мультимодальных данных. ## Результаты Эксперименты проводились на бенчмарк-датасете, содержащем звуковые записи устных высказываний с оценками по экспертным критериям. Результаты показали, что MLLM-системы повышают точность оценки речи, увеличивая корреляционный коэффициент (PCC) с 0.783 до 0.846. Особое внимание уделено аспекту "дикция" (динамические характеристики речи), где SFMT демонстрирует абсолютный прирост точности в 4% по сравнению с традиционными методами. Это свидетельствует о том, что SFMT может устранить существующие проблемы в оценке устной речи. ## Значимость Предложенная модель имеет широкие перспективы применения в обучении иностранным языкам, а также в системах личного и профессионального развития. Она предоставляет более точную и полную оценку устной речи, учитывая все аспекты — содержание, языковой уровень и динамические характеристики. Выявленный потенциал MLLM-моделей для ASA открывает новые технические и научные возможности в области машинного обучения и образовательных технологий. ## Выводы Результаты экспериментов подтверждают, что MLLM являются эффективным инструментом для полноценной ASA. Особое внимание уделено стратегии SFMT, которая устанавливает новый стандарт в обучении моделей к обработке речи. Будущие исследования буду

Annotation:

Traditional Automated Speaking Assessment (ASA) systems exhibit inherent modality limitations: text-based approaches lack acoustic information while audio-based methods miss semantic context. Multimodal Large Language Models (MLLM) offer unprecedented opportunities for comprehensive ASA by simultaneously processing audio and text within unified frameworks. This paper presents a very first systematic study of MLLM for comprehensive ASA, demonstrating the superior performance of MLLM across the as...

ID: 2508.12591v1 cs.CL, cs.AI, cs.SD

arXiv PDF

Показано 11 - 20 из 22 записей