Objective Soups: Multilingual Multi-Task Modeling for Speech Processing

2508.09228v1 eess.AS, cs.LG, math.OC, stat.ML 2025-08-15
Авторы:

A F M Saif, Lisha Chen, Xiaodong Cui, Songtao Lu, Brian Kingsbury, Tianyi Chen

Резюме на русском

## Контекст Область исследования, связанная с многоязычным и многозадачным процессингом речи (MSP), характеризуется высокой требовательностью к решению сложных проблем. Одной из основных проблем является конфликтующие цели, которые возникают при одновременном обучении моделей для таких задач, как распознавание речи и перевод. Традиционные подходы к многообъективному оптимизационному подходу (MOO) сталкиваются с проблемой уменьшения эффективности с увеличением количества задач. Это вызывает вопрос о том, должны ли эти задачи быть объединены в единую модель или разделены на отдельные уровни. Наша мотивация заключается в том, чтобы рассмотреть новый подход к решению этой проблемы, который позволил бы увеличить эффективность моделей MSP. ## Метод Мы предлагаем три различных подхода к решению этой проблемы, которые мы назвали "объективные супы" (Objective Soups). Каждый из подходов использует многообъективное оптимизационное решение на разных уровнях модели. Наша модель включает также легковесный механизм выбора слоев, который оптимизирует только самые проблемные слои, что позволяет снизить вычислительный и памятный overhead. Мы используем различные данные, такие как CoVoST v2, LibriSpeech и AISHELL-1, чтобы проверить эффективность наших подходов в реальных условиях. ## Результаты Наши эксперименты показали, что подход с би-уровневой структурой, который отделяет задачи распознавания речи и перевода, дает лучшие результаты по сравнению с традиционными подходами к оптимизации. Мы провели подробный анализ, в котором показали, что наш подход улучшает качество распознавания и перевода, уменьшая конфликт между задачами. Кроме того, наши результаты показали, что использование легковесного выбора слоев позволяет эффективно уменьшить вычислительный overhead. ## Значимость Наш подход может быть применен в различных областях, включая реализацию систем распознавания речи и перевода для многоязычных приложений. Этот подход отличается своей эффективностью и способностью масштабироваться для большого количества задач. В дальнейшем, мы планируем расширить нашу модель, включив больше задач и провести эксперименты на более крупных данных, чтобы улучшить её точность и общую эффективность. ## Выводы Мы доказали, что наш подход к многообъективному оптимизационному подходу, названный "объективными супами", является более эффективным и масштабируемым, чем традиционные подходы к решению проблем многозадачного процессинга речи. В будущем, мы планируем продолжить развитие нашей модели, чтобы улучшить её точность и покрытие для различных задач и языков.

Abstract

Training a single model for multilingual, multi-task speech processing (MSP) is severely hampered by conflicting objectives between tasks like speech recognition and translation. While multi-objective optimization (MOO) aims to align gradient updates, its effectiveness diminishes as the number of tasks grows, making it difficult to find a common descent direction. This raises a fundamental question: should highly conflicting objectives be optimized jointly or separated into a hierarchical structure? To address this question, this paper investigates three multi-objective MSP formulations, which we refer to as \textbf{objective soup recipes}. These formulations apply multi-objective optimization at different optimization levels to mitigate potential conflicts among all objectives. To ensure efficiency, we introduce a lightweight layer-selection mechanism that computes the conflict-avoiding gradient using only the most problematic layers, minimizing computational and memory overhead. Extensive experiments on CoVoST v2, LibriSpeech, and AISHELL-1 reveal that a bi-level recipe separating recognition and translation tasks consistently outperforms standard flat optimization. Our work demonstrates that hierarchical MOO is a more effective and scalable approach for building state-of-the-art MSP models. Our code has been released at https://github.com/afmsaif/Objective_Soups.

Ссылки и действия