Fast and Accurate SVD-Type Updating in Streaming Data

2509.02840v1 math.NA, cs.LG, cs.MS, cs.NA, 65F55, 68T09, 65Y20 2025-09-05

Авторы:

Johannes J. Brust, Michael A. Saunders

Резюме на русском

## Контекст Современные данные часто представляются в виде потоков, где каждый элемент — это небольшая часть большой матрицы. Оценка структуры данных через SVD (стохастическое векторное декомпозирование) является ключевым инструментом в таких приложениях, таких как рекомендательные системы и сетевые анализы. Однако потоковые данные часто меняются, и требуется постоянное обновление SVD-образной оценки. Традиционные методы полного перерасчета SVD для каждого обновления неэффективны для больших объемов данных из-за высокого процессорного и памяти затрат. Этот факт определяет потребность в разработке более эффективных алгоритмов, которые могут обновлять SVD-оценки в реальном времени. ## Метод Предлагается набор алгоритмов, основанных на факторизации Гаусса и трансформациях Хаусхолдера, для эффективного обновления SVD-оценок в потоковых данных. Основная идея заключается в разделении низкорангового обновления от более сложной части главных компонент. Алгоритм на основе сжатых преобразований Хаусхолдера декомпозирует матрицу на низкоранговую часть и спарсную часть, что позволяет уменьшить память и затраты на вычисления. Другой алгоритм, основанный на поворотах Гивенса, использует всего около 10 операций на каждый шаг и имеет квадратичный порядок роста с ростом размера матрицы, что отлично подходит для высокопроизводительных приложений. ## Результаты Эксперименты показали, что новые алгоритмы обеспечивают точность, подобную традиционным методам SVD, но с значительными выигрышами в скорости и эффективности. Например, алгоритм с трансформациями Гивенса обрабатывает каждый шаг в 10 раз быстрее стандартных методов. Набор данных в экспериментах включал матрицы размером в несколько тысяч строк и столбцов, на которых мы проверяли скорость и точность. Также проводились сравнения с LAPACK и другими инструментами, которые подтвердили выигрыш в производительности. ## Значимость Предложенные алгоритмы эффективны для обработки высокопроизводительных потоковых данных, таких как рекомендательные системы, сетевые мониторинг и другие приложения, где необходим реальное время обновление SVD. В отличие от существующих методов, они экономичны в памяти и быстры. Это делает их подход особенно привлекательным для приложений в области ИИ, сетевого анализа и биоинформатики. ## Выводы Мы представили эффективные методы для обновления SVD-оценок в потоковых данных, которые обеспечивают точность, аналогичную традиционным SVD-методам, но с значительными выигрышами в производительности. В буду

Abstract

For a datastream, the change over a short interval is often of low rank. For high throughput information arranged in matrix format, recomputing an optimal SVD approximation after each step is typically prohibitive. Instead, incremental and truncated updating strategies are used, which may not scale for large truncation ranks. Therefore, we propose a set of efficient new algorithms that update a bidiagonal factorization, and which are similarly accurate as the SVD methods. In particular, we develop a compact Householder-type algorithm that decouples a sparse part from a low-rank update and has about half the memory requirements of standard bidiagonalization methods. A second algorithm based on Givens rotations has only about 10 flops per rotation and scales quadratically with the problem size, compared to a typical cubic scaling. The algorithm is therefore effective for processing high-throughput updates, as we demonstrate in tracking large subspaces of recommendation systems and networks, and when compared to well known software such as LAPACK or the incremental SVD.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация