Sample-efficient Integration of New Modalities into Large Language Models

2509.04606v1 cs.CL, cs.AI, cs.CV 2025-09-09
Авторы:

Osman Batur İnce, André F. T. Martins, Oisin Mac Aodha, Edoardo M. Ponti

Резюме на русском

#### Контекст В настоящее время имеется возможность обрабатывать несколько модальностей путем использования multimodal foundation models. Однако, поскольку количество возможных модальностей велико и постоянно растет, обучение модели с нуля для включения всех модальностей становится невозможным. Кроме того, внедрение новой модальности в существующую foundation model требует значительного количества парных данных, которые часто недоступны для ресурсоподдерживающих модальностей. Данная работа предлагает метод sample-efficient integration (SEMI) для включения новых модальностей в Large Language Models (LLMs). SEMI позволяет эффективно использовать небольшое количество семплов для обучения модели на различных модальностях. #### Метод SEMI основывается на использовании hypernetwork, который может адаптировать shared projector, расположенный между modality-specific encoders и LLM. Этот hypernetwork обучается на высокоресурсных модальностях (например, текст, речь, звук, видео) и может адаптироваться к нестандартным модальностям в ходе вывода. Для увеличения разнообразия модальностей, используются isometric transformations, которые позволяют увеличить количество модальностей в ходе обучения. Например, для достижения той же точности, необходимо 64 раз больше данных, если обучать projector с нуля по сравнению с 32-shot SEMI. #### Результаты На основе экспериментов было показано, что SEMI эффективно включает новые модальности в LLMs с минимальным количеством данных. За счет hypernetwork можно использовать несколько модальностей, включая satellite images, astronomical images, inertial measurements и molecules. Это позволяет максимально эффективно использовать ресурсы и находит широкое применение в области multimodal foundation models. #### Значимость SEMI расширяет возможности foundation models, их модальности и границы. Это делает их более гибкими и пригодными для различных применений, включая видеообработку, доступ к информации и даже работу с нетипичными модальностями. Этот подход может способствовать дальнейшей разработке multimodal foundation models, увеличению их модификации, а также увеличению их разнообразия и гибкости. #### Выводы В данной работе был представлен эффективный подход для интеграции новых модальностей в LLMs с минимальными обучающими данными. Этот метод может быть применен для расширения возможностей foundation models. В будущем, технологии могут быть усовершенствованы для использования в различных приложениях, включая обработку данных с различных источников, включая video, astronomy и даже специальные модальности, такие как медицинская информация.

Abstract

Multimodal foundation models can process several modalities. However, since the space of possible modalities is large and evolving over time, training a model from scratch to encompass all modalities is unfeasible. Moreover, integrating a modality into a pre-existing foundation model currently requires a significant amount of paired data, which is often not available for low-resource modalities. In this paper, we introduce a method for sample-efficient modality integration (SEMI) into Large Language Models (LLMs). To this end, we devise a hypernetwork that can adapt a shared projector -- placed between modality-specific encoders and an LLM -- to any modality. The hypernetwork, trained on high-resource modalities (i.e., text, speech, audio, video), is conditioned on a few samples from any arbitrary modality at inference time to generate a suitable adapter. To increase the diversity of training modalities, we artificially multiply the number of encoders through isometric transformations. We find that SEMI achieves a significant boost in sample efficiency during few-shot integration of new modalities (i.e., satellite images, astronomical images, inertial measurements, and molecules) with encoders of arbitrary embedding dimensionality. For instance, to reach the same accuracy as 32-shot SEMI, training the projector from scratch needs 64$\times$ more data. As a result, SEMI holds promise to extend the modality coverage of foundation models.

Ссылки и действия