Talking with Oompa Loompas: A novel framework for evaluating linguistic acquisition of LLM agents

2509.07389v1 cs.CL, cs.AI, cs.HC, cs.LG 2025-09-11
Авторы:

Sankalp Tattwadarshi Swain, Anshika Krishnatray, Dhruv Kumar, Jagat Sesh Challa

Резюме на русском

## Контекст Область исследования заключается в оценке моделей языковых моделей (LLM) на предмет их лексической и грамматической компетентности. Несмотря на прогресс моделей в области генерации текста и разбора языка, экспериментальные работы по оценке их умения овладеть языком через процессы, похожие на человеческое обучение, остаются недостаточно развитыми. Основной проблемой является то, что текущие методы оценки не учитывают возможность LLM-агентов развивать языковые навыки в интерактивной среде, где они должны принимать во внимание обратную связь от своих собеседников. Это является ключевым аспектом человеческого обучения языку, который остается непрочтенным в существующих исследованиях. Мотивация заключается в развитии нового подхода к оценке моделей, который бы позволил изучить их возможность развивать языковые навыки в условиях, похожих на реальную интерактивную среду. ## Метод Предложенный подход включает в себя разработку нового языка, называемого Tinkatongue, для использования в экспериментах. Этот язык был создан специально для проверки возможности LLM-агентов приобретать новый язык через интерактивный процесс. Модели протестированы в условиях, где они должны взаимодействовать с ботом, говорящим только на Tinkatongue. Логика заключается в том, что LLM-агенты должны не только понять значения слов, но и приучиться использовать новый язык в контексте диалога. Метод основывается на использовании многократных итераций общения, где каждый раз LLM-агент должен адаптироваться к новым контекстам и обратной связи от бота. Данный подход представляет собой новую архитектуру для тестирования глубины и эффективности усвоения новых языковых моделей. ## Результаты Эксперименты показали, что LLM-агенты не сумели установить более чем 100 ответов в диалоге на новом языке. Однако интересно отметить, что модели приземляются на различные стратегии, которые напоминают человеческие методы обучения новых языков. Например, они используют знакомые модели языка, которые они уже знают, и пытаются наладить связь между новым языком и уже изученными. Несмотря на то, что они не достигли идеального уровня, результаты показывают, что модели могут приобретать и использовать новый язык в интерактивном режиме, но это требует большего количества итераций и поддержки подсказок. Это демонстрирует первые шаги в понимании, как модели могут развивать языковые навыки в ответ на интерактивную обратную связь. ## Значимость Результаты имеют большое значение для развития бенчмарко

Abstract

Existing evaluation studies on linguistic competence of large language models (LLM agents) have focused primarily on vocabulary learning, morphological rule induction, syntactic generalization, pragmatic inference, and cross-linguistic transfer. However, none assess whether LLM agents can acquire a language through pattern recognition and interactive feedback, a central feature of human language acquisition. We propose a novel experimental framework in which an LLM agent is evaluated on its ability to acquire and use a newly constructed language (Tinkatongue) in conversation with a bot that understands only Tinkatongue. Our findings show that LLM agents fail to establish a conversation within 100 responses, yet they adopt distinct strategies that mirror human approaches to language learning. The results suggest a new direction for evaluation benchmarks and open pathways to model designs that learn more effectively from interactive feedback.

Ссылки и действия