HapticLLaMA: A Multimodal Sensory Language Model for Haptic Captioning
2508.06475v1
cs.CL
2025-08-12
Авторы:
Guimin Hu, Daniel Hershcovich, Hasti Seifi
Резюме на русском
Дата: 24.11.2024
## Контекст
Haptic captioning — это задача генерирования естественного языка для описания зрительных сигналов, таких как вибрации. Эта задача применима в виртуальной реальности, реабилитации и доступности. Несмотря на развитие многомодальных исследований в области видения и аудио, сенсорные сигналы, основанные на осязании, остаются практически неизученными. Данная работа выступает в роли одного из первых попыток исследования этого направления. Мы предлагаем HapticLLaMA — модель, которая преобразует сенсорные сигналы в естественный язык для категорий сенсорных, эмоциональных или ассоциативных. Такая модель может быть полезна для создания более доступных и интерактивных систем взаимодействия.
## Метод
HapticLLaMA — это мультимодальная языковая модель, которая использует технологии трансформеров. Для преобразования зрительных сигналов в дискретные единицы мы предлагаем два подхода:
1. **Frequency-based tokenizer** — зрительные сигналы преобразуются в частотные компоненты с использованием алгоритма FFT.
2. **EnCodec-based tokenizer** — специальный алгоритм, разработанный для кодирования аудиоданных, совместим с зрительными сигналами.
Модель проходит две этапа обучения:
1. **Supervised fine-tuning**: модель LLaMA адаптируется с помощью LoRA к входным зрительным сигналам.
2. **Fine-tuning с RLHF**: модель применяет подход reinforcement learning from human feedback для улучшения качества генерируемых описаний.
## Результаты
Мы экспериментировали с двумя типами сигналов: синтетическими и реальными. Использовали метрики METEOR и BLEU-4 для оценки качества описаний. HapticLLaMA показала следующие результаты:
- **METEOR**: 59.98
- **BLEU-4**: 32.06
Более того, более 61% описаний получили оценки выше 3.5 в шкале от 7-ти. RLHF повысил средний рейтинг на 10%, улучшив гармонию с человеческим ощущением. Эти результаты демонстрируют, что модель может обрабатывать сенсорные сигналы с высоким качеством и адаптироваться к различным задачам.
## Значимость
HapticLLaMA может применяться в следующих областях:
- **Доступность**: помогает сенсорно неполноценно организмам интерактивно взаимодействовать с системами.
- **Реабилитация**: формирует окружающую среду, улучшающую реабилитационные процессы.
- **Виртуальная реальность**: добавляет возможность ощущать объекты в VR-средах.
Преимущества модели заключаются в своей многомодальности и точности в интерпретации зрительных сигналов. Эта модель открывает пути к будущим исследованиям в области моделей, обрабатывающих сенсорные данные.
## Выводы
HapticLLaMA доказала свою эффективность в преобразовании зрительных сигнало
Abstract
Haptic captioning is the task of generating natural language descriptions
from haptic signals, such as vibrations, for use in virtual reality,
accessibility, and rehabilitation applications. While previous multimodal
research has focused primarily on vision and audio, haptic signals for the
sense of touch remain underexplored. To address this gap, we formalize the
haptic captioning task and propose HapticLLaMA, a multimodal sensory language
model that interprets vibration signals into descriptions in a given sensory,
emotional, or associative category. We investigate two types of haptic
tokenizers, a frequency-based tokenizer and an EnCodec-based tokenizer, that
convert haptic signals into sequences of discrete units, enabling their
integration with the LLaMA model. HapticLLaMA is trained in two stages: (1)
supervised fine-tuning using the LLaMA architecture with LoRA-based adaptation,
and (2) fine-tuning via reinforcement learning from human feedback (RLHF). We
assess HapticLLaMA's captioning performance using both automated n-gram metrics
and human evaluation. HapticLLaMA demonstrates strong capability in
interpreting haptic vibration signals, achieving a METEOR score of 59.98 and a
BLEU-4 score of 32.06 respectively. Additionally, over 61% of the generated
captions received human ratings above 3.5 on a 7-point scale, with RLHF
yielding a 10% improvement in the overall rating distribution, indicating
stronger alignment with human haptic perception. These findings highlight the
potential of large language models to process and adapt to sensory data.
Ссылки и действия
Дополнительные ресурсы: