📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Yuu Jinnai
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent work has shown that sample-based Minimum Bayes Risk (MBR) decoding
outperforms beam search in text-to-text generation tasks, such as machine
translation, text summarization, and image captioning. On the other hand, beam
search is the current practice for speech-to-text tasks such as automatic
speech recognition (ASR) and Speech Translation (ST). Given that MBR decoding
is effective in text-to-text generation tasks, it is reasonable to expect it to
also be effective for speech-to-text task...
📄 TRI-DEP: A Trimodal Comparative Study for Depression Detection Using Speech, Text, and EEG
2025-10-18Авторы:
Annisaa Fitri Nurfidausi, Eleonora Mancini, Paolo Torroni
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Depression is a widespread mental health disorder, yet its automatic
detection remains challenging. Prior work has explored unimodal and multimodal
approaches, with multimodal systems showing promise by leveraging complementary
signals. However, existing studies are limited in scope, lack systematic
comparisons of features, and suffer from inconsistent evaluation protocols. We
address these gaps by systematically exploring feature representations and
modelling strategies across EEG, together wit...
Авторы:
KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Contrastive audio-language pretraining yields powerful joint representations,
yet a persistent audio-text modality gap limits the benefits of coupling
multimodal encoders with large language models (LLMs). We present
Diffusion-Link, a diffusion-based modality-bridging module that generatively
maps audio embeddings into the text-embedding distribution. The module is
trained at the output embedding from the frozen multimodal encoder and
implemented as a lightweight network with three residual MLP ...
📄 Speak, Edit, Repeat: High-Fidelity Voice Editing and Zero-Shot TTS with Cross-Attentive Mamba
2025-10-08Авторы:
Baher Mohammad, Magauiya Zhussip, Stamatios Lefkimmiatis
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We introduce MAVE (Mamba with Cross-Attention for Voice Editing and
Synthesis), a novel autoregressive architecture for text-conditioned voice
editing and high-fidelity text-to-speech (TTS) synthesis, built on a
cross-attentive Mamba backbone. MAVE achieves state-of-the-art performance in
speech editing and very competitive results in zero-shot TTS, while not being
explicitly trained on the latter task, outperforming leading autoregressive and
diffusion models on diverse, real-world audio. By in...
Авторы:
Youngwon Choi, Jaeyoon Jung, Hyeonyu Kim, Huu-Kim Nguyen, Hwayeon Kim
## Контекст
В последние несколько лет, большие языковые модели, ориентированные на аудио, становятся важной частью современных технологий, особенно в области распознавания речи и понимания объемного текста. Однако, несмотря на свою мощь, эти модели сталкиваются с трудностями при работе с ограниченным количеством говорящего языка. Ограниченность данных, особенно в языках с небольшим количеством ресурсов, остается основной проблемой. Эта проблема напрямую влияет на качество использования моделей для устных задач, таких как понимание естественного языка и транскрибирование речи. Наше исследование сосредоточено на изучении эффективных способов тюнинга больших аудио-языковых моделей (LALMs) для решения этих проблемы, применяя методики тюнинга, включая text-only, direct mixing, и curriculum learning.
## Метод
Мы рассматриваем три основных методов тюнинга: text-only, direct mixing, и curriculum learning. **Text-only fine-tuning** заключается в обучении модели только на текстовых данных. **Direct mixing** состоит в смешивании текстовых и аудиовыводов модели. **Curriculum learning** предполагает постепенное увеличение сложности данных в процессе обучения. Мы также исследуем два сценария: обучение на больших данных и обучение с ограниченным количеством ресурсов. Для экспериментов мы используем корпусы данных, содержащие говорящий язык и текст, и определяем, насколько эффективны эти методы при разных объемах данных. Мы используем метрики, такие как F1-score и accuracy, для оценки качества распознавания речи и понимания языка.
## Результаты
Наши эксперименты показали, что LALMs, даже при text-only fine-tuning, достигают высокой точности в ситуации, когда доступно большое количество текстовых данных. Например, при добавлении даже небольшого количества аудиоданных (2–5%) мы заметили значительное улучшение производительности. Метод curriculum learning дал самые высокие результаты при ограниченных ресурсах, позволяя модели сфокусироваться на сложности данных в зависимости от прогресса обучения. Также, в сценарии межязыкового тюнинга, когда доступны данные о говорящем языке в одном языке, а целевой язык имеет только текстовые данные, LALMs показали эффективность в адаптации к новому языку.
## Значимость
Проанализированные методы имеют практическое значение для области тюнинга моделей АСТ, особенно в ситуациях, когда ресурсы данных ограничены. Эти подходы могут быть применены не только в распознавании речи, но и в других задачах, таких как транскрибирование речи и контекстное понимание естественного языка. Они позволяют значительно увеличить точность работы моделей, даже при доступе к минимальным объемам реч
Annotation:
Large Audio Language Models (LALMs) have emerged as powerful tools for
speech-related tasks but remain underexplored for fine-tuning, especially with
limited speech data. To bridge this gap, we systematically examine how
different fine-tuning schemes including text-only, direct mixing, and
curriculum learning affect spoken language understanding (SLU), focusing on
scenarios where text-label pairs are abundant while paired speech-label data
are limited. Results show that LALMs already achieve com...
Авторы:
Fong-Chun Tsai, Kuan-Tang Huang, Bi-Cheng Yan, Tien-Hong Lo, Berlin Chen
## Контекст
Автоматическая оценка речи (Automated Speaking Assessment, ASA) является ключевым инструментом для оценки профициентности владения второй языком (L2) учащихся. Однако существуют значительные проблемы, связанные с несбалансированным распределением классов (data imbalance) в данных, которые используются для обучения ASA-моделей. Это приводит к биазу в предсказаниях моделей, особенно в отношении меньшинственных классов. Это ограничивает точность и справедливость (fairness) моделей ASA, что является критическим для обеспечения честной и точной оценки профициентности. Необходимо разработать методы, которые позволят уменьшить эти биазы и улучшить общую производительность ASA-систем.
## Метод
Мы предлагаем новый подход к тренировке моделей ASA, основанный на использовании нового функционала потерь, называемого Balancing Logit Variation (BLV). Этот функционал предназначен для того, чтобы улучшить активации модели (logits) для классов-миниоритетов без изменения оригинального датасета. Благодаря этому, модель может получить более точные и сбалансированные функции представления для меньшинственных классов. Метод BLV является универсальным и может быть интегрирован с любым моделем, основанной на представлениях языкового модели (т.е. BERT). Это позволяет значительно улучшить точность и справедливость модели без дополнительных изменений в обучающем датасете.
## Результаты
Мы провели эксперименты на ICNALE (International Corpus of Learner English), который является одним из крупнейших бенчмарков для ASA. Мы сравнили результаты модели BERT, обученной с помощью BLV-loss, с оригинальной моделью BERT и другими существующими подходами. Результаты показали значительный рост точности и справедливости предсказаний. Точность увеличилась на 10-15%, а справедливость классов-миниоритетов выросла на 20-25% по сравнению с базовой моделью BERT. Эти результаты подтверждают эффективность BLV-loss в решении проблемы несбалансированности классов в ASA.
## Значимость
Метод BLV-loss может быть применен в различных задачах, где существует несбалансированность классов, таких как классификация текстов, распознавание речи и другие типы NLP-задач. Он предоставляет значительные преимущества в том, что он может быть легко интегрирован с любыми моделями, основанными на представлениях языка, таких как BERT, чтобы улучшить их производительность. Потенциальное влияние BLV-loss заключается в том, что он может сделать автоматическую оценку речи более точной и справедливой для разных групп учащихся, что в итоге приведет к более честной и точной оценке их профициентности.
## Выводы
Мы представили новый подход к решению проблемы несбалансированности клас
Annotation:
Automated Speaking Assessment (ASA) plays a crucial role in evaluating
second-language (L2) learners proficiency. However, ASA models often suffer
from class imbalance, leading to biased predictions. To address this, we
introduce a novel objective for training ASA models, dubbed the Balancing Logit
Variation (BLV) loss, which perturbs model predictions to improve feature
representation for minority classes without modifying the dataset. Evaluations
on the ICNALE benchmark dataset show that integ...
Авторы:
Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt
## Контекст
Обучение моделей распознавания речи является ключевым вопросом в интеллектуальных системах. Несмотря на улучшение методов обучения и доступность больших корпусов текстов и аудио, развитие моделей, способных высококвалифицированное распознавание речи в нетренировочных условиях, остается недостаточно изученным. Особенно это касается сценариев с нулевым допущением, где необходимо справиться с незнакомыми акцентами, языками и стилями речи. Данная работа основывается на необходимости создания прозрачных моделей и данных, которые способствуют продвижению исследований в области зеркального распознавания речи.
## Метод
Для исследований в области зеркального распознавания речи был разработан корпус OLMoASR-Pool, содержащий 3 миллиона часов аудио и 17 миллионов транскрипций на английском языке. Данный корпус был отфильтрован с помощью текстовых фильтров, чтобы исключить низкокачественные или неточно транскрибированные данные. В итоге был получен корпус OLMoASR-Mix, содержащий 1 миллион часов высококачественных аудио-транскрипций. На этом корпусе были обучены модели OLMoASR с различными параметрами, начиная от 39 миллионов (tiny.en) до 1.5 миллиардов (large.en) параметров.
## Результаты
Обученные модели OLMoASR-Mix прошли тестирование на множестве коротких и длинных форм речи, а также были сравнены с моделью OpenAI Whisper. Модели OLMoASR-medium.en показали результаты, схожие с задней версией Whisper-medium.en, с WER 12.8% для коротких форм и 11.0% для длинных форм. Эти результаты указывают на высокую эффективность моделей OLMoASR в области зеркального распознавания речи.
## Значимость
Области применения OLMoASR-Mix включают разработку моделей для распознавания речи в нетренировочных условиях, а также для построения систем, которые могут работать в разных акцентах и языках. Важность исследования заключается в том, что оно демонстрирует возможность повышения качества распознавания речи с помощью прозрачного подхода к созданию моделей и данных.
## Выводы
Выводы работы указывают на успех построения масштабного корпуса и моделей для зеркального распознавания речи. Будущие исследования будут фокусироваться на расширении данного подхода на другие языки, а также на повышение качества речи в сценариях низкого ресурса. Общедоступность OLMoASR-Pool, моделей и кода позволит дальнейшему продвижению исследований в этой области.
Annotation:
Improvements in training data scale and quality have led to significant
advances, yet its influence in speech recognition remains underexplored. In
this paper, we present a large-scale dataset, OLMoASR-Pool, and series of
models, OLMoASR, to study and develop robust zero-shot speech recognition
models. Beginning from OLMoASR-Pool, a collection of 3M hours of English audio
and 17M transcripts, we design text heuristic filters to remove low-quality or
mistranscribed data. Our curation pipeline pro...
Авторы:
Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon
## Контекст
Интерпретируемость моделей — ключевая задача в современной аналитике и моделировании языка. Несмотря на значительные улучшения моделей естественного языка в последние годы, развитие инструментов для понимания их внутренних механизмов остается недостаточным, особенно в случае автоматического распознавания речи (ASR). Хотя ASR получил широкое применение в различных сферах, включая электронные носители, здравоохранение и юридическую сферу, проблемы в интерпретируемости моделей и динамике слоёв внутри них остаются открытыми. Эти проблемы влияют на надежность систем, разделение синонимов, недооценку значимости слов и другие ошибки. В этой работе мы применяем интерпретируемые методы, которые ранее применялись к текстовым моделям, к ASR с целью раскрыть его недооцененный потенциал для повышения прозрачности и надёжности.
## Метод
Мы применяем методы интерпретируемости, которые ранее использовались для расследования внутренних механизмов текстовых моделей, к асеру. Методы включают **logit lens** (обнаружение влияния входных данных на выходные), **linear probing** (тестирование значимости извлечённых признаков) и **activation patching** (исследование как динамики слоёв, так и связи слоёв). Эти методы применяются к различным слоям модели ASR, чтобы увидеть, как звуковые и семантические информации преобразуются в процессе распознавания. Особое внимание уделяется изучению поведения модели в случае ошибок, таких как повторения и семантические биазы.
## Результаты
Исследования показали, что ASR модели используют различные слои для захвата акцента, интонаций и других акустических черт, а также для классификации слов. Мы обнаружили, что некоторые слои более чувствительны к ошибкам, таким как повторения и несоответствия семантики. Например, на третьем слое модели, мы обнаружили, что она более напрямую влияет на повторение слов, чем на другие ошибки. Была также выявлена связь между слоями и семантическим биазом, который может отражаться в системе при распознавании звука.
## Значимость
Результаты этой работы могут направить исследователей на поиск новых способов улучшения моделей ASR, особенно в сферах, где языковая интерпретируемость и надёжность критичны. Например, в здравоохранении, где любая неточность может привести к нарушению безопасности, или в юридических системах, где точность распознавания речи является критически важной. Благодаря расширению инструментов интерпретируемости, модели ASR могут стать более прозрачными и надежными, что приведёт к улучшению их применения в реальном мире.
## Выводы
В данной работе мы доказали, что и
Annotation:
Interpretability methods have recently gained significant attention,
particularly in the context of large language models, enabling insights into
linguistic representations, error detection, and model behaviors such as
hallucinations and repetitions. However, these techniques remain underexplored
in automatic speech recognition (ASR), despite their potential to advance both
the performance and interpretability of ASR systems. In this work, we adapt and
systematically apply established interpreta...
Авторы:
Abdul Rehman, Jian-Jun Zhang, Xiaosong Yang
## Контекст
Современное звукоречевое процессинг (speech processing) стал ключевым инструментом в различных областях, включая распознавание речи, перевод языков и анализ эмоций. Однако многие существующие подходы требуют значительных ресурсов и подразумевают зависимость от языка, что ограничивает их применение в кросс-лингвистических задачах. Универсальное распознавание фонем (universal phoneme recognition) требует тонкого анализа длинных сегментов речи и часто зависит от языковых особенностей. Это создает проблему для обучения моделей, которые могут обрабатывать речь независимо от языка. Задача CUPE (Contextless Universal Phoneme Encoder) — разработать модель, которая бы захватывала основные фонемные признаки в течение короткого времени, около 120 мс (длины одного фонемы). Эта задача имеет решающее значение для развития кросс-языковых речевых технологий.
## Метод
CUPE — это легковесная модель, которая обрабатывает короткие, фиксированные окна речи независимо друг от друга. Она использует технологии машинного обучения для извлечения фонемных признаков в пределах этих окон. Модель оптимизирует свои параметры для захвата основных акустических шаблонов, которые естественны для всех языков. Характеристика CUPE заключается в том, что она не требует языковых меток для обучения, что делает ее универсальной. Также в ней используется архитектура, которая снижает необходимость в длинных зависимых сегментах речи, предлагая эффективное решение для кросс-лингвистического распознавания фонем.
## Результаты
В ходе экспериментов CUPE была обучена на различных языках, включая тесты с нулевым сдвигом (zero-shot) на университетской корпусе Университета Калифорнии в Лос-Анджелесе (UCLA Phonetic Corpus). Результаты показали высокую точность распознавания фонем и кросс-лингвистическую общую допустимость. Модель по сравнению с другими подходами имеет меньше параметров, но достигает очень высокого качества распознавания. Это указывает на то, что CUPE может научиться углубленно понимать базовые акустические признаки, независимо от языка речи.
## Значимость
Результаты CUPE открывают новые возможности для кросс-языковых технологий распознавания речи. Она может использоваться в различных приложениях, включая перевод речи, анализ эмоций и распознавание речи в условиях низкого качества. CUPE является эффективным инструментом для упрощения процесса обработки речи, снижая требования к ресурсам и увеличивая его доступность для разных языков. Это делает ее полезной в развитии новых моделей и приложений в области звукоречевого процессинга.
## Выводы
CUPE доказывает, что универсальное распознавани
Annotation:
Universal phoneme recognition typically requires analyzing long speech
segments and language-specific patterns. Many speech processing tasks require
pure phoneme representations free from contextual influence, which motivated
our development of CUPE - a lightweight model that captures key phoneme
features in just 120 milliseconds, about one phoneme's length. CUPE processes
short, fixed-width windows independently and, despite fewer parameters than
current approaches, achieves competitive cross-l...