Talking with Oompa Loompas: A novel framework for evaluating linguistic acquisition of LLM agents
2509.07389v1
cs.CL, cs.AI, cs.HC, cs.LG
2025-09-11
Авторы:
Sankalp Tattwadarshi Swain, Anshika Krishnatray, Dhruv Kumar, Jagat Sesh Challa
Резюме на русском
## Контекст
Область исследования заключается в оценке моделей языковых моделей (LLM) на предмет их лексической и грамматической компетентности. Несмотря на прогресс моделей в области генерации текста и разбора языка, экспериментальные работы по оценке их умения овладеть языком через процессы, похожие на человеческое обучение, остаются недостаточно развитыми. Основной проблемой является то, что текущие методы оценки не учитывают возможность LLM-агентов развивать языковые навыки в интерактивной среде, где они должны принимать во внимание обратную связь от своих собеседников. Это является ключевым аспектом человеческого обучения языку, который остается непрочтенным в существующих исследованиях. Мотивация заключается в развитии нового подхода к оценке моделей, который бы позволил изучить их возможность развивать языковые навыки в условиях, похожих на реальную интерактивную среду.
## Метод
Предложенный подход включает в себя разработку нового языка, называемого Tinkatongue, для использования в экспериментах. Этот язык был создан специально для проверки возможности LLM-агентов приобретать новый язык через интерактивный процесс. Модели протестированы в условиях, где они должны взаимодействовать с ботом, говорящим только на Tinkatongue. Логика заключается в том, что LLM-агенты должны не только понять значения слов, но и приучиться использовать новый язык в контексте диалога. Метод основывается на использовании многократных итераций общения, где каждый раз LLM-агент должен адаптироваться к новым контекстам и обратной связи от бота. Данный подход представляет собой новую архитектуру для тестирования глубины и эффективности усвоения новых языковых моделей.
## Результаты
Эксперименты показали, что LLM-агенты не сумели установить более чем 100 ответов в диалоге на новом языке. Однако интересно отметить, что модели приземляются на различные стратегии, которые напоминают человеческие методы обучения новых языков. Например, они используют знакомые модели языка, которые они уже знают, и пытаются наладить связь между новым языком и уже изученными. Несмотря на то, что они не достигли идеального уровня, результаты показывают, что модели могут приобретать и использовать новый язык в интерактивном режиме, но это требует большего количества итераций и поддержки подсказок. Это демонстрирует первые шаги в понимании, как модели могут развивать языковые навыки в ответ на интерактивную обратную связь.
## Значимость
Результаты имеют большое значение для развития бенчмарко
Abstract
Existing evaluation studies on linguistic competence of large language models
(LLM agents) have focused primarily on vocabulary learning, morphological rule
induction, syntactic generalization, pragmatic inference, and cross-linguistic
transfer. However, none assess whether LLM agents can acquire a language
through pattern recognition and interactive feedback, a central feature of
human language acquisition. We propose a novel experimental framework in which
an LLM agent is evaluated on its ability to acquire and use a newly constructed
language (Tinkatongue) in conversation with a bot that understands only
Tinkatongue. Our findings show that LLM agents fail to establish a conversation
within 100 responses, yet they adopt distinct strategies that mirror human
approaches to language learning. The results suggest a new direction for
evaluation benchmarks and open pathways to model designs that learn more
effectively from interactive feedback.