Sample-efficient Integration of New Modalities into Large Language Models
2509.04606v1
cs.CL, cs.AI, cs.CV
2025-09-09
Авторы:
Osman Batur İnce, André F. T. Martins, Oisin Mac Aodha, Edoardo M. Ponti
Резюме на русском
#### Контекст
В настоящее время имеется возможность обрабатывать несколько модальностей путем использования multimodal foundation models. Однако, поскольку количество возможных модальностей велико и постоянно растет, обучение модели с нуля для включения всех модальностей становится невозможным. Кроме того, внедрение новой модальности в существующую foundation model требует значительного количества парных данных, которые часто недоступны для ресурсоподдерживающих модальностей. Данная работа предлагает метод sample-efficient integration (SEMI) для включения новых модальностей в Large Language Models (LLMs). SEMI позволяет эффективно использовать небольшое количество семплов для обучения модели на различных модальностях.
#### Метод
SEMI основывается на использовании hypernetwork, который может адаптировать shared projector, расположенный между modality-specific encoders и LLM. Этот hypernetwork обучается на высокоресурсных модальностях (например, текст, речь, звук, видео) и может адаптироваться к нестандартным модальностям в ходе вывода. Для увеличения разнообразия модальностей, используются isometric transformations, которые позволяют увеличить количество модальностей в ходе обучения. Например, для достижения той же точности, необходимо 64 раз больше данных, если обучать projector с нуля по сравнению с 32-shot SEMI.
#### Результаты
На основе экспериментов было показано, что SEMI эффективно включает новые модальности в LLMs с минимальным количеством данных. За счет hypernetwork можно использовать несколько модальностей, включая satellite images, astronomical images, inertial measurements и molecules. Это позволяет максимально эффективно использовать ресурсы и находит широкое применение в области multimodal foundation models.
#### Значимость
SEMI расширяет возможности foundation models, их модальности и границы. Это делает их более гибкими и пригодными для различных применений, включая видеообработку, доступ к информации и даже работу с нетипичными модальностями. Этот подход может способствовать дальнейшей разработке multimodal foundation models, увеличению их модификации, а также увеличению их разнообразия и гибкости.
#### Выводы
В данной работе был представлен эффективный подход для интеграции новых модальностей в LLMs с минимальными обучающими данными. Этот метод может быть применен для расширения возможностей foundation models. В будущем, технологии могут быть усовершенствованы для использования в различных приложениях, включая обработку данных с различных источников, включая video, astronomy и даже специальные модальности, такие как медицинская информация.
Abstract
Multimodal foundation models can process several modalities. However, since
the space of possible modalities is large and evolving over time, training a
model from scratch to encompass all modalities is unfeasible. Moreover,
integrating a modality into a pre-existing foundation model currently requires
a significant amount of paired data, which is often not available for
low-resource modalities. In this paper, we introduce a method for
sample-efficient modality integration (SEMI) into Large Language Models (LLMs).
To this end, we devise a hypernetwork that can adapt a shared projector --
placed between modality-specific encoders and an LLM -- to any modality. The
hypernetwork, trained on high-resource modalities (i.e., text, speech, audio,
video), is conditioned on a few samples from any arbitrary modality at
inference time to generate a suitable adapter. To increase the diversity of
training modalities, we artificially multiply the number of encoders through
isometric transformations. We find that SEMI achieves a significant boost in
sample efficiency during few-shot integration of new modalities (i.e.,
satellite images, astronomical images, inertial measurements, and molecules)
with encoders of arbitrary embedding dimensionality. For instance, to reach the
same accuracy as 32-shot SEMI, training the projector from scratch needs
64$\times$ more data. As a result, SEMI holds promise to extend the modality
coverage of foundation models.
Ссылки и действия
Дополнительные ресурсы: