HapticLLaMA: A Multimodal Sensory Language Model for Haptic Captioning

2508.06475v1 cs.CL 2025-08-12
Авторы:

Guimin Hu, Daniel Hershcovich, Hasti Seifi

Резюме на русском

Дата: 24.11.2024 ## Контекст Haptic captioning — это задача генерирования естественного языка для описания зрительных сигналов, таких как вибрации. Эта задача применима в виртуальной реальности, реабилитации и доступности. Несмотря на развитие многомодальных исследований в области видения и аудио, сенсорные сигналы, основанные на осязании, остаются практически неизученными. Данная работа выступает в роли одного из первых попыток исследования этого направления. Мы предлагаем HapticLLaMA — модель, которая преобразует сенсорные сигналы в естественный язык для категорий сенсорных, эмоциональных или ассоциативных. Такая модель может быть полезна для создания более доступных и интерактивных систем взаимодействия. ## Метод HapticLLaMA — это мультимодальная языковая модель, которая использует технологии трансформеров. Для преобразования зрительных сигналов в дискретные единицы мы предлагаем два подхода: 1. **Frequency-based tokenizer** — зрительные сигналы преобразуются в частотные компоненты с использованием алгоритма FFT. 2. **EnCodec-based tokenizer** — специальный алгоритм, разработанный для кодирования аудиоданных, совместим с зрительными сигналами. Модель проходит две этапа обучения: 1. **Supervised fine-tuning**: модель LLaMA адаптируется с помощью LoRA к входным зрительным сигналам. 2. **Fine-tuning с RLHF**: модель применяет подход reinforcement learning from human feedback для улучшения качества генерируемых описаний. ## Результаты Мы экспериментировали с двумя типами сигналов: синтетическими и реальными. Использовали метрики METEOR и BLEU-4 для оценки качества описаний. HapticLLaMA показала следующие результаты: - **METEOR**: 59.98 - **BLEU-4**: 32.06 Более того, более 61% описаний получили оценки выше 3.5 в шкале от 7-ти. RLHF повысил средний рейтинг на 10%, улучшив гармонию с человеческим ощущением. Эти результаты демонстрируют, что модель может обрабатывать сенсорные сигналы с высоким качеством и адаптироваться к различным задачам. ## Значимость HapticLLaMA может применяться в следующих областях: - **Доступность**: помогает сенсорно неполноценно организмам интерактивно взаимодействовать с системами. - **Реабилитация**: формирует окружающую среду, улучшающую реабилитационные процессы. - **Виртуальная реальность**: добавляет возможность ощущать объекты в VR-средах. Преимущества модели заключаются в своей многомодальности и точности в интерпретации зрительных сигналов. Эта модель открывает пути к будущим исследованиям в области моделей, обрабатывающих сенсорные данные. ## Выводы HapticLLaMA доказала свою эффективность в преобразовании зрительных сигнало

Abstract

Haptic captioning is the task of generating natural language descriptions from haptic signals, such as vibrations, for use in virtual reality, accessibility, and rehabilitation applications. While previous multimodal research has focused primarily on vision and audio, haptic signals for the sense of touch remain underexplored. To address this gap, we formalize the haptic captioning task and propose HapticLLaMA, a multimodal sensory language model that interprets vibration signals into descriptions in a given sensory, emotional, or associative category. We investigate two types of haptic tokenizers, a frequency-based tokenizer and an EnCodec-based tokenizer, that convert haptic signals into sequences of discrete units, enabling their integration with the LLaMA model. HapticLLaMA is trained in two stages: (1) supervised fine-tuning using the LLaMA architecture with LoRA-based adaptation, and (2) fine-tuning via reinforcement learning from human feedback (RLHF). We assess HapticLLaMA's captioning performance using both automated n-gram metrics and human evaluation. HapticLLaMA demonstrates strong capability in interpreting haptic vibration signals, achieving a METEOR score of 59.98 and a BLEU-4 score of 32.06 respectively. Additionally, over 61% of the generated captions received human ratings above 3.5 on a 7-point scale, with RLHF yielding a 10% improvement in the overall rating distribution, indicating stronger alignment with human haptic perception. These findings highlight the potential of large language models to process and adapt to sensory data.

Ссылки и действия