I Have No Mouth, and I Must Rhyme: Uncovering Internal Phonetic Representations in LLaMA 3.2
2508.02527v1
cs.CL, cs.LG
2025-08-09
Авторы:
Jack Merullo, Arjun Khurana, Oliver McLaughlin
Резюме на русском
Ларже лангудже модели, несмотря на отсутствие прямого звукового обогащения, показывают хорошую производительность на гармонических задачах, таких как согласование. В данной работе рассматривается механизм, с помощью которого LLaMA 3.2-1B-Instruct обрабатывает такие задачи. Мы выяснили, что модель основывается на богатом внутреннем моделировании фонемов, чтобы выполнять эти задачи. В латентном пространстве LLaMA обнаруживается организованная система представления фонемов, а также выделяется "phoneme mover head", который активно участвует в выполнении задач согласования. Мы также отобразили выходное пространство этого узла и обнаружили, что LLaMA самостоятельно вырабатывает модель гласных, которая, несмотря на отсутствие прямого вдохновения, тесно напоминает традиционную ИПА-карту гласных. Эти результаты облегчают понимание латентных процессов в моделях текстового понимания.
Abstract
Large language models demonstrate proficiency on phonetic tasks, such as
rhyming, without explicit phonetic or auditory grounding. In this work, we
investigate how \verb|Llama-3.2-1B-Instruct| represents token-level phonetic
information. Our results suggest that Llama uses a rich internal model of
phonemes to complete phonetic tasks. We provide evidence for high-level
organization of phoneme representations in its latent space. In doing so, we
also identify a ``phoneme mover head" which promotes phonetic information
during rhyming tasks. We visualize the output space of this head and find that,
while notable differences exist, Llama learns a model of vowels similar to the
standard IPA vowel chart for humans, despite receiving no direct supervision to
do so.
Ссылки и действия
Дополнительные ресурсы: