## КОНТЕКСТ И ПРОБЛЕМАТИКА
Современные большие языковые модели (LLM) проходят тщательную настройку для минимизации явных социальных и культурных предвзятостей. Однако, несмотря на эти усилия, в моделях сохраняются тонкие неявные искажения, корни которых уходят в данные, использованные при предобучении. Традиционный подход к выявлению таких искажений основан на прямом опросе моделей с помощью заранее подготовленных вопросов, что часто приводит к срабатыванию защитных механизмов и получению осторожных, политкорректных ответов. Этот метод ограничен тем, что не позволяет исследовать спонтанное поведение моделей в естественных условиях.
Авторы статьи предлагают новый подход: вместо того чтобы задавать вопросы модели, они наблюдают, как модель сама формулирует вопросы для решения задачи дедукции. Для этого была выбрана игра в "20 вопросов" - мультитурнирная дедуктивная задача, где модель должна угадать задуманную сущность, задавая вопросы, на которые можно отвечать "да", "нет" или "не имеет значения". Эта игра идеально подходит для исследования, так как позволяет наблюдать, как модель сама инициирует и направляет процесс рассуждений.
Особое внимание уделяется географическим различиям в способности моделей дедуцировать сущности из разных регионов мира. Существующие исследования сконцентрированы на англоязычном контенте и западноцентричном взгляде на мир, что может привести к систематическому занижению качества работы моделей с объектами из Глобального Юга и Востока. Это создает проблему справедливости и инклюзивности в применении ИИ систем на глобальном уровне.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для систематического исследования географических различий авторы разработали новый датасет Geo20Q+, включающий 400 сущностей из разных регионов мира. Датасет содержит две категории объектов: 200 известных людей (политики, артисты, спортсмены, ученые) и 200 культурно значимых объектов (еды, достопримечательности, животные). Сущности распределены по 7 регионам: Северная Америка, Южная Америка, Европа, Африка, Ближний Восток, Азия и Австралия/Океания.
Исследование охватывает 6 популярных LLM: GPT-4o, GPT-3.5-turbo, Claude-3-sonnet, Gemini-1.5-pro, Llama-3-70b и Mixtral-8x7b. Модели тестировались в двух конфигурациях игры: канонической версии с ограничением в 20 вопросов и версии с неограниченным количеством попыток. Эксперименты проводились на 7 языках: английском, хинди, китайском, японском, французском, испанском и турецком.
Для проведения экспериментов была разработана автоматизированная система, где одна модель выступает ведущим (загадывает сущность), а другая - угадывающим. Угадывающая модель получает только категорию сущности (человек или объект) и должна сформулировать последовательность вопросов для дедукции правильного ответа. Ведущая модель отвечает на основе заранее подготовленных фактов о сущности.
Авторы также проанализировали корреляцию между производительностью моделей и такими метриками, как количество просмотров страниц Википедии и частота упоминания в корпусе предобучения. Это позволило количественно оценить влияние представленности данных на качество дедукции.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Эксперименты выявили значительные географические диспропорции в успешности дедукции сущностей. Модели демонстрируют существенно более высокую точность при угадывании объектов из Глобального Севера по сравнению с Глобальным Югом (разница до 35 процентных пунктов). Аналогичная тенденция наблюдается при сравнении Глобального Запада и Востока. Самые высокие показатели достигнуты для сущностей из Европы и Северной Америки, тогда как объекты из Африки и Южной Америки демонстрируют наихудшие результаты.
Интересно, что язык взаимодействия оказал минимальное влияние на качество дедукции. Различия в точности между английским и другими языками составляли менее 5 процентных пунктов, что говорит о более глубоких, чем языковые барьеры, факторах, влияющих на производительность