📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Objective Soups: Multilingual Multi-Task Modeling for Speech Processing

2025-08-15

Авторы:

A F M Saif, Lisha Chen, Xiaodong Cui, Songtao Lu, Brian Kingsbury, Tianyi Chen

## Контекст Область исследования, связанная с многоязычным и многозадачным процессингом речи (MSP), характеризуется высокой требовательностью к решению сложных проблем. Одной из основных проблем является конфликтующие цели, которые возникают при одновременном обучении моделей для таких задач, как распознавание речи и перевод. Традиционные подходы к многообъективному оптимизационному подходу (MOO) сталкиваются с проблемой уменьшения эффективности с увеличением количества задач. Это вызывает вопрос о том, должны ли эти задачи быть объединены в единую модель или разделены на отдельные уровни. Наша мотивация заключается в том, чтобы рассмотреть новый подход к решению этой проблемы, который позволил бы увеличить эффективность моделей MSP. ## Метод Мы предлагаем три различных подхода к решению этой проблемы, которые мы назвали "объективные супы" (Objective Soups). Каждый из подходов использует многообъективное оптимизационное решение на разных уровнях модели. Наша модель включает также легковесный механизм выбора слоев, который оптимизирует только самые проблемные слои, что позволяет снизить вычислительный и памятный overhead. Мы используем различные данные, такие как CoVoST v2, LibriSpeech и AISHELL-1, чтобы проверить эффективность наших подходов в реальных условиях. ## Результаты Наши эксперименты показали, что подход с би-уровневой структурой, который отделяет задачи распознавания речи и перевода, дает лучшие результаты по сравнению с традиционными подходами к оптимизации. Мы провели подробный анализ, в котором показали, что наш подход улучшает качество распознавания и перевода, уменьшая конфликт между задачами. Кроме того, наши результаты показали, что использование легковесного выбора слоев позволяет эффективно уменьшить вычислительный overhead. ## Значимость Наш подход может быть применен в различных областях, включая реализацию систем распознавания речи и перевода для многоязычных приложений. Этот подход отличается своей эффективностью и способностью масштабироваться для большого количества задач. В дальнейшем, мы планируем расширить нашу модель, включив больше задач и провести эксперименты на более крупных данных, чтобы улучшить её точность и общую эффективность. ## Выводы Мы доказали, что наш подход к многообъективному оптимизационному подходу, названный "объективными супами", является более эффективным и масштабируемым, чем традиционные подходы к решению проблем многозадачного процессинга речи. В будущем, мы планируем продолжить развитие нашей модели, чтобы улучшить её точность и покрытие для различных задач и языков.

Annotation:

Training a single model for multilingual, multi-task speech processing (MSP) is severely hampered by conflicting objectives between tasks like speech recognition and translation. While multi-objective optimization (MOO) aims to align gradient updates, its effectiveness diminishes as the number of tasks grows, making it difficult to find a common descent direction. This raises a fundamental question: should highly conflicting objectives be optimized jointly or separated into a hierarchical struct...

ID: 2508.09228v1 eess.AS, cs.LG, math.OC, stat.ML

arXiv PDF