Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs
2509.17701v1
cs.CL, cs.AI, cs.LG
2025-09-24
Авторы:
Mariam Mahran, Katharina Simbeck
Резюме на русском
## Контекст
Государственный образовательный стандарт (ГОС) в Германии определяет критерии математического образования с детских садов до 10 классов. Однако существует недостаток систематизированных методик по разработке и оценке математических задач, особенно в многоязычной среде. Ларже Лангуедж Моделс (LLMs) становятся популярнее в области образовательной поддержки, но вариативность их результатов зависит от языка взаимодействия. Этот факт создает проблемы для глобализации образования и справедливости в доступе к инновационным технологиям. Наша исследовательская группа предлагает внедрить многоязычную автоматизированную систему для генерации, решения и оценки математических задач, которая станет доступной для разных языков и культур.
## Метод
Мы разработали многоязычную систему для генерации, решения и оценки математических задач, ориентированную на критерии ГОС. Для этого мы создали 628 задач, используя методы конвертации текста на математические формулы, подходящие для обучения. Затем мы эти задачи перевели на английский, немецкий и арабский языки. Для каждого языка мы использовали три модели ЛЛМ (GPT-4o-mini, Gemini 2.5 Flash и Qwen-plus), чтобы генерировать шаговое решение задач. В качестве критерия качества решений мы привлекли третью сторону — ЛЛМ-оценщиков: Claude 3.5 Haiku. Эта модель сравнивала решения по всем трем языкам и оценивала их качество с учетом точности, грамотности и полноты.
## Результаты
Лараже Лангуедж Моделы способны решать задачи на нескольких языках, но результаты показывают существенные различия в качестве решений. Английские решения постоянно получают высшие оценки от ЛЛМ-оценщиков, в то время как арабские решения часто являются самыми низкими в рейтинге. Эти результаты отражают явный языковый биас в текущих моделях, что подтверждает необходимость развития более справедливых многоязычных систем.
## Значимость
Мы видим широкие возможности для применения нашей системы в области мультиязычного образования. Особенно актуальным является использование нашей системы в германском образовании. Она может помочь улучшить доступ к качественному образованию для говорящих на арабском и немецком языках. Более того, наша система может стать моделью для других стран, где широко используют многоязычные системы в образовательном контексте. Это может способствовать решению проблемы языкового биаса в технологиях и сделать образование более справедливым и доступным во всем мире.
## Выводы
Мы успешно разрабо
Abstract
Large Language Models (LLMs) are increasingly used for educational support,
yet their response quality varies depending on the language of interaction.
This paper presents an automated multilingual pipeline for generating, solving,
and evaluating math problems aligned with the German K-10 curriculum. We
generated 628 math exercises and translated them into English, German, and
Arabic. Three commercial LLMs (GPT-4o-mini, Gemini 2.5 Flash, and Qwen-plus)
were prompted to produce step-by-step solutions in each language. A held-out
panel of LLM judges, including Claude 3.5 Haiku, evaluated solution quality
using a comparative framework. Results show a consistent gap, with English
solutions consistently rated highest, and Arabic often ranked lower. These
findings highlight persistent linguistic bias and the need for more equitable
multilingual AI systems in education.
Ссылки и действия
Дополнительные ресурсы: