Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs

2509.17701v1 cs.CL, cs.AI, cs.LG 2025-09-24

Авторы:

Mariam Mahran, Katharina Simbeck

Резюме на русском

## Контекст Государственный образовательный стандарт (ГОС) в Германии определяет критерии математического образования с детских садов до 10 классов. Однако существует недостаток систематизированных методик по разработке и оценке математических задач, особенно в многоязычной среде. Ларже Лангуедж Моделс (LLMs) становятся популярнее в области образовательной поддержки, но вариативность их результатов зависит от языка взаимодействия. Этот факт создает проблемы для глобализации образования и справедливости в доступе к инновационным технологиям. Наша исследовательская группа предлагает внедрить многоязычную автоматизированную систему для генерации, решения и оценки математических задач, которая станет доступной для разных языков и культур. ## Метод Мы разработали многоязычную систему для генерации, решения и оценки математических задач, ориентированную на критерии ГОС. Для этого мы создали 628 задач, используя методы конвертации текста на математические формулы, подходящие для обучения. Затем мы эти задачи перевели на английский, немецкий и арабский языки. Для каждого языка мы использовали три модели ЛЛМ (GPT-4o-mini, Gemini 2.5 Flash и Qwen-plus), чтобы генерировать шаговое решение задач. В качестве критерия качества решений мы привлекли третью сторону — ЛЛМ-оценщиков: Claude 3.5 Haiku. Эта модель сравнивала решения по всем трем языкам и оценивала их качество с учетом точности, грамотности и полноты. ## Результаты Лараже Лангуедж Моделы способны решать задачи на нескольких языках, но результаты показывают существенные различия в качестве решений. Английские решения постоянно получают высшие оценки от ЛЛМ-оценщиков, в то время как арабские решения часто являются самыми низкими в рейтинге. Эти результаты отражают явный языковый биас в текущих моделях, что подтверждает необходимость развития более справедливых многоязычных систем. ## Значимость Мы видим широкие возможности для применения нашей системы в области мультиязычного образования. Особенно актуальным является использование нашей системы в германском образовании. Она может помочь улучшить доступ к качественному образованию для говорящих на арабском и немецком языках. Более того, наша система может стать моделью для других стран, где широко используют многоязычные системы в образовательном контексте. Это может способствовать решению проблемы языкового биаса в технологиях и сделать образование более справедливым и доступным во всем мире. ## Выводы Мы успешно разрабо

Abstract

Large Language Models (LLMs) are increasingly used for educational support, yet their response quality varies depending on the language of interaction. This paper presents an automated multilingual pipeline for generating, solving, and evaluating math problems aligned with the German K-10 curriculum. We generated 628 math exercises and translated them into English, German, and Arabic. Three commercial LLMs (GPT-4o-mini, Gemini 2.5 Flash, and Qwen-plus) were prompted to produce step-by-step solutions in each language. A held-out panel of LLM judges, including Claude 3.5 Haiku, evaluated solution quality using a comparative framework. Results show a consistent gap, with English solutions consistently rated highest, and Arabic often ranked lower. These findings highlight persistent linguistic bias and the need for more equitable multilingual AI systems in education.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация