📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Scott Merrill, Shashank Srivastava
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models offer opportunities to simulate multi-party deliberation, but realistic modeling remains limited by a lack of speaker-attributed data. Transcripts produced via automatic speech recognition (ASR) assign anonymous speaker labels (e.g., Speaker_1), preventing models from capturing consistent human behavior. This work introduces a reproducible pipeline to transform public Zoom recordings into speaker-attributed transcripts with metadata like persona profiles and pragmatic actio...
Авторы:
Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel
## Контекст
Говорящие языковые модели (LLM) становятся все более важными для различных аспектов технологий, включая специальные системы, связанные с распознаванием речи, техническими библиотеками, системами рекомендации и другими. Особенно актуальной стала работа с задачами, возникающими при работе с говорящими языками, таких как автоматическое переводить речи и отвечать на вопросы. Однако существуют различные проблемы, связанные с этим, включая трудности в понимании речи, нормализации входных данных, а также обработке новых типов задач. На практике, многие текущие решения ограничены в том, что они ориентированы на задачи с фиксированными ответами, что не позволяет сделать модели более универсальными. В этом контексте требуется развитие моделей, которые могут подстраиваться под различные типы задач и языков.
## Метод
Мы предлагаем метод **Group Relative Policy Optimization (GRPO)**, который используется для обучения моделей **Speech-Aware Large Language Models (SALLMs)**. GRPO широко используется для обучения моделей с целью повышения эффективности и точности. **BLEU** (Bilingual Evaluation Understudy) - это сигнал реWARD, который используется для оценки качества перевода или генерирования текста. Мы используем GRPO в комбинации с BLEU, чтобы оптимизировать модели SALLMs для задач, таких как **Spoken Question Answering** и **Automatic Speech Translation**. Мы также используем off-policy samples (записанные при помощи других моделей) для расширения области исследований и повышения точности моделей.
## Результаты
Мы проводили эксперименты с различными данными и сравнили результаты с применением GRPO и стандартной SFT (Sequence-to-Sequence Fine-Tuning). Модель SALLM, обученная с помощью GRPO, показала лучшие результаты по нескольким ключевым метрикам, включая BLEU, ROUGE-L и METEOR. Мы также показали, что использование off-policy samples может улучшить качество генерирования и обработки новых типов задач. Эти результаты показали, что GRPO может быть эффективным методом для обучения моделей SALLM, что позволяет добиться лучших результатов на различных типах говорящих языков.
## Значимость
Метод GRPO может быть применен в различных сферах, включая модели для распознавания речи, автоматического перевода речи и решения различных задач лингвистики. Этот подход может использоваться в системах, которые требуют высокого качества генерирования текста и понимания речи. Это позволит сделать модели более универсальными и эффективными для различных языков и типов данных. Например, модель SALLM с GRPO может стать базой для развития новых систем, повышающих точность и мощность автоматического перевода и распознавания речи.
## Выводы
Мы представили **GRPO** - метод для обучения моделей Speech-Aware Large Language Models, который показал высокую эффективность по сравнению с сущест
Annotation:
In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based
method for training Speech-Aware Large Language Models (SALLMs) on open-format
speech understanding tasks, such as Spoken Question Answering and Automatic
Speech Translation. SALLMs have proven highly effective for speech
understanding tasks. GRPO has recently gained traction for its efficiency in
training LLMs, and prior work has explored its application to SALLMs, primarily
in multiple-choice tasks. Building on this,...
Авторы:
Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee
#### Контекст
Осуществление многомерных взаимодействий между текстом и аудио является ключевым запросом в современных текстовых моделях. Хотя люди способны осуществлять понятие аудиосвойств, таких как звуковой тон, громкость или связь звука с источником, исходя из знаний пространства, большинство текстовых моделей страдают от малой способности обрабатывать такие свойства. Этот ряд ограничений может стать препятствием для эффективных многомодальных приложений. Одним из шагов к решению этой проблемы является разработка AuditoryBench++, которая представляет собой новую меру для оценки моделей текстов в части их способности к аудиокоммуникации и соотнесению.
#### Метод
**AuditoryBench++** представляет собой набор задач, которые разбиваются на две группы: базовые аудиосравнения и социально-контекстуальные рассуждения. Методика использует специальные токены для синтеза информации в процессе вывода. Таким образом, модель может генерировать и анализировать аудиоконцепты, используя свои внутренние механизмы. Для оценки моделей был разработан алгоритм **AIR-CoT** (Auditory Imagination Reasoning with Chain-of-Thought), который имеет возможность расширять текстовую информацию, используя аудиоконцепты в процессе рассуждения.
#### Результаты
Мы проводили эксперименты с различными текстовыми моделями, включая обученные с нуля LLMs и модели с многомодальными возможностями. Результаты показали, что AIR-CoT не только превосходит готовые модели без дополнительных модификаций, но и существенно улучшает результаты в сравнении с моделями, в которых использовался дополнительный аудиоконтекст. Это улучшение является примечательным, так как AIR-CoT не требует внешних сенсорных данных, таких как аудиозаписи.
#### Значимость
Аудиокомпетентность, предлагаемая **AuditoryBench++**, может найти применение в широком спектре многомодальных приложений, таких как системы опоры на текст, роботы-компаньоны, и обозреватели смысла звука. Этот подход открывает новые возможности для лучшего понимания и интерактивности с многомодальными текстовыми моделями. Благодаря AIR-CoT, модели могут достичь более высокого уровня рациональности в аудиоконтекстах, не требуя дополнительных аудиоданных.
#### Выводы
**AuditoryBench++** и AIR-CoT являются прорывными направлениями в области развития моделей, которые могут обрабатывать аудиоконцепты. Наши результаты открывают путь к будущим исследованиям в области взаимодействия текста и аудио, призывая к дальнейшему исследованию аудиокомпетентности в текстовых моделях. Мы считаем, что этот подход может значительно улучшить многомодальные приложения, даруя и
Annotation:
Even without directly hearing sounds, humans can effortlessly reason about
auditory properties, such as pitch, loudness, or sound-source associations,
drawing on auditory commonsense. In contrast, language models often lack this
capability, limiting their effectiveness in multimodal interactions. As an
initial step to address this gap, we present AuditoryBench++, a comprehensive
benchmark for evaluating auditory knowledge and reasoning in text-only
settings. The benchmark encompasses tasks that ...
Авторы:
Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda
## Контекст
Автоматическое распознавание речи (ASR) широко применяется в различных областях, но сталкивается с значительными проблемами в распознавании доменно-специфических названий сущностей, особенно при наличии гомофонов. Традиционные методы часто не могут точно различать похожие фонетические варианты слов, что приводит к высокой ошибке распознавания. Это особенно актуально для языков с богатой фонетической структурой, таких как китайский, где неточности в распознавании названий сущностей могут привести к серьезным последствиям. Поэтому, целью данного исследования является разработка метода, позволяющего значительно повысить точность распознавания доменно-специфических лексем, включая гомофоны.
## Метод
Предлагаемый метод, Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), включает несколько ключевых компонентов:
1. **Phoneme-Aware Encoding**: Использование фонемов в качестве дополнительных признаков для улучшения точности распознавания.
2. **Contrastive Entity Disambiguation**: Метод, позволяющий отличать похожие звуковые сущности, используя контрастное сравнение.
3. **Entity-Level Supervision**: Обучение системы на основе супервайзед данных, которое позволяет лучше учитывать контекст и фонетические особенности.
4. **Hierarchical Entity Filtering**: Фильтрация сущностей на разных уровнях вложенности, чтобы уменьшить false positives и увеличить precision.
Техническая архитектура PARCO основана на взаимодействии этих компонентов, что обеспечивает уверенное распознавание и сокращение ошибок.
## Результаты
Проведенные эксперименты показали, что PARCO достигает следующих результатов:
- **Chinese AISHELL-1**: Character Error Rate (CER) составил 4.22% при работе с 1,000 distractors.
- **English DATA2**: Word Error Rate (WER) составил 11.14% при работе с 1,000 distractors.
- **Out-of-Domain Datasets**: Значимые улучшения также были продемонстрированы на данных THCHS-30 и LibriSpeech, что указывает на широкую применимость PARCO.
Сравнение с базовыми методами показало, что PARCO обеспечивает значительные повышения точности, особенно в условиях высокой конфузии.
## Значимость
Предложенный подход может быть применен в различных сферах, где точность распознавания доменных названий ключевая. Например, в системах контроля доступа, сервисах поддержки или системах распознавания речи в медицинской информатике. Основные преимущества PARCO заключаются в улучшенной точности, уменьшении false positives и обеспечении гибкости при работе с различными типами данных. Потенциальное влияние PARCO заключается в улучшении качества работы ASR-систем, что может привести к улучшению пользовательского опыта и эффективности в различных промышленных приложениях.
## Выводы
Результаты исследо
Annotation:
Automatic speech recognition (ASR) systems struggle with domain-specific
named entities, especially homophones. Contextual ASR improves recognition but
often fails to capture fine-grained phoneme variations due to limited entity
diversity. Moreover, prior methods treat entities as independent tokens,
leading to incomplete multi-token biasing. To address these issues, we propose
Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation
(PARCO), which integrates phoneme-aware e...