📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Youngwon Choi, Jaeyoon Jung, Hyeonyu Kim, Huu-Kim Nguyen, Hwayeon Kim
## Контекст
В последние несколько лет, большие языковые модели, ориентированные на аудио, становятся важной частью современных технологий, особенно в области распознавания речи и понимания объемного текста. Однако, несмотря на свою мощь, эти модели сталкиваются с трудностями при работе с ограниченным количеством говорящего языка. Ограниченность данных, особенно в языках с небольшим количеством ресурсов, остается основной проблемой. Эта проблема напрямую влияет на качество использования моделей для устных задач, таких как понимание естественного языка и транскрибирование речи. Наше исследование сосредоточено на изучении эффективных способов тюнинга больших аудио-языковых моделей (LALMs) для решения этих проблемы, применяя методики тюнинга, включая text-only, direct mixing, и curriculum learning.
## Метод
Мы рассматриваем три основных методов тюнинга: text-only, direct mixing, и curriculum learning. **Text-only fine-tuning** заключается в обучении модели только на текстовых данных. **Direct mixing** состоит в смешивании текстовых и аудиовыводов модели. **Curriculum learning** предполагает постепенное увеличение сложности данных в процессе обучения. Мы также исследуем два сценария: обучение на больших данных и обучение с ограниченным количеством ресурсов. Для экспериментов мы используем корпусы данных, содержащие говорящий язык и текст, и определяем, насколько эффективны эти методы при разных объемах данных. Мы используем метрики, такие как F1-score и accuracy, для оценки качества распознавания речи и понимания языка.
## Результаты
Наши эксперименты показали, что LALMs, даже при text-only fine-tuning, достигают высокой точности в ситуации, когда доступно большое количество текстовых данных. Например, при добавлении даже небольшого количества аудиоданных (2–5%) мы заметили значительное улучшение производительности. Метод curriculum learning дал самые высокие результаты при ограниченных ресурсах, позволяя модели сфокусироваться на сложности данных в зависимости от прогресса обучения. Также, в сценарии межязыкового тюнинга, когда доступны данные о говорящем языке в одном языке, а целевой язык имеет только текстовые данные, LALMs показали эффективность в адаптации к новому языку.
## Значимость
Проанализированные методы имеют практическое значение для области тюнинга моделей АСТ, особенно в ситуациях, когда ресурсы данных ограничены. Эти подходы могут быть применены не только в распознавании речи, но и в других задачах, таких как транскрибирование речи и контекстное понимание естественного языка. Они позволяют значительно увеличить точность работы моделей, даже при доступе к минимальным объемам реч
Annotation:
Large Audio Language Models (LALMs) have emerged as powerful tools for
speech-related tasks but remain underexplored for fine-tuning, especially with
limited speech data. To bridge this gap, we systematically examine how
different fine-tuning schemes including text-only, direct mixing, and
curriculum learning affect spoken language understanding (SLU), focusing on
scenarios where text-label pairs are abundant while paired speech-label data
are limited. Results show that LALMs already achieve com...
Авторы:
Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt
## Контекст
Обучение моделей распознавания речи является ключевым вопросом в интеллектуальных системах. Несмотря на улучшение методов обучения и доступность больших корпусов текстов и аудио, развитие моделей, способных высококвалифицированное распознавание речи в нетренировочных условиях, остается недостаточно изученным. Особенно это касается сценариев с нулевым допущением, где необходимо справиться с незнакомыми акцентами, языками и стилями речи. Данная работа основывается на необходимости создания прозрачных моделей и данных, которые способствуют продвижению исследований в области зеркального распознавания речи.
## Метод
Для исследований в области зеркального распознавания речи был разработан корпус OLMoASR-Pool, содержащий 3 миллиона часов аудио и 17 миллионов транскрипций на английском языке. Данный корпус был отфильтрован с помощью текстовых фильтров, чтобы исключить низкокачественные или неточно транскрибированные данные. В итоге был получен корпус OLMoASR-Mix, содержащий 1 миллион часов высококачественных аудио-транскрипций. На этом корпусе были обучены модели OLMoASR с различными параметрами, начиная от 39 миллионов (tiny.en) до 1.5 миллиардов (large.en) параметров.
## Результаты
Обученные модели OLMoASR-Mix прошли тестирование на множестве коротких и длинных форм речи, а также были сравнены с моделью OpenAI Whisper. Модели OLMoASR-medium.en показали результаты, схожие с задней версией Whisper-medium.en, с WER 12.8% для коротких форм и 11.0% для длинных форм. Эти результаты указывают на высокую эффективность моделей OLMoASR в области зеркального распознавания речи.
## Значимость
Области применения OLMoASR-Mix включают разработку моделей для распознавания речи в нетренировочных условиях, а также для построения систем, которые могут работать в разных акцентах и языках. Важность исследования заключается в том, что оно демонстрирует возможность повышения качества распознавания речи с помощью прозрачного подхода к созданию моделей и данных.
## Выводы
Выводы работы указывают на успех построения масштабного корпуса и моделей для зеркального распознавания речи. Будущие исследования будут фокусироваться на расширении данного подхода на другие языки, а также на повышение качества речи в сценариях низкого ресурса. Общедоступность OLMoASR-Pool, моделей и кода позволит дальнейшему продвижению исследований в этой области.
Annotation:
Improvements in training data scale and quality have led to significant
advances, yet its influence in speech recognition remains underexplored. In
this paper, we present a large-scale dataset, OLMoASR-Pool, and series of
models, OLMoASR, to study and develop robust zero-shot speech recognition
models. Beginning from OLMoASR-Pool, a collection of 3M hours of English audio
and 17M transcripts, we design text heuristic filters to remove low-quality or
mistranscribed data. Our curation pipeline pro...
Авторы:
Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon
## Контекст
Интерпретируемость моделей — ключевая задача в современной аналитике и моделировании языка. Несмотря на значительные улучшения моделей естественного языка в последние годы, развитие инструментов для понимания их внутренних механизмов остается недостаточным, особенно в случае автоматического распознавания речи (ASR). Хотя ASR получил широкое применение в различных сферах, включая электронные носители, здравоохранение и юридическую сферу, проблемы в интерпретируемости моделей и динамике слоёв внутри них остаются открытыми. Эти проблемы влияют на надежность систем, разделение синонимов, недооценку значимости слов и другие ошибки. В этой работе мы применяем интерпретируемые методы, которые ранее применялись к текстовым моделям, к ASR с целью раскрыть его недооцененный потенциал для повышения прозрачности и надёжности.
## Метод
Мы применяем методы интерпретируемости, которые ранее использовались для расследования внутренних механизмов текстовых моделей, к асеру. Методы включают **logit lens** (обнаружение влияния входных данных на выходные), **linear probing** (тестирование значимости извлечённых признаков) и **activation patching** (исследование как динамики слоёв, так и связи слоёв). Эти методы применяются к различным слоям модели ASR, чтобы увидеть, как звуковые и семантические информации преобразуются в процессе распознавания. Особое внимание уделяется изучению поведения модели в случае ошибок, таких как повторения и семантические биазы.
## Результаты
Исследования показали, что ASR модели используют различные слои для захвата акцента, интонаций и других акустических черт, а также для классификации слов. Мы обнаружили, что некоторые слои более чувствительны к ошибкам, таким как повторения и несоответствия семантики. Например, на третьем слое модели, мы обнаружили, что она более напрямую влияет на повторение слов, чем на другие ошибки. Была также выявлена связь между слоями и семантическим биазом, который может отражаться в системе при распознавании звука.
## Значимость
Результаты этой работы могут направить исследователей на поиск новых способов улучшения моделей ASR, особенно в сферах, где языковая интерпретируемость и надёжность критичны. Например, в здравоохранении, где любая неточность может привести к нарушению безопасности, или в юридических системах, где точность распознавания речи является критически важной. Благодаря расширению инструментов интерпретируемости, модели ASR могут стать более прозрачными и надежными, что приведёт к улучшению их применения в реальном мире.
## Выводы
В данной работе мы доказали, что и
Annotation:
Interpretability methods have recently gained significant attention,
particularly in the context of large language models, enabling insights into
linguistic representations, error detection, and model behaviors such as
hallucinations and repetitions. However, these techniques remain underexplored
in automatic speech recognition (ASR), despite their potential to advance both
the performance and interpretability of ASR systems. In this work, we adapt and
systematically apply established interpreta...