## Контекст
Large Language Models (LLMs) являются значительным достижением в области искусственного интеллекта, обладая выдающимися возможностями для решения различных задач. Однако, несмотря на их высокую точность и эффективность, они часто сталкиваются с проблемами, связанными с надежностью. Эта надежность является критически важной для обеспечения качественного выполнения задач, а также для соблюдения этических и культурных норм. Особенно важной является безопасность использования таких моделей, так как некорректно выраженные ответы могут привести к нежелательным последствиям.
Мы сосредоточились на том, чтобы разработать метрику, которая была бы культурно ориентирована и позволяла оценивать надежность LLMs в различных аспектах. Отдельного внимания уделено тем моделям, которые применяются в контексте фарси, где культурное окружение и этические нормы значительно отличаются от других регионов. Эта метрика, названная EPT (Evaluation of Persian Trustworthiness), охватывает шесть основных аспектов: правдивость, безопасность, справедливость, устойчивость, конфиденциальность и этическое взаимодействие.
## Метод
Чтобы оценить надежность LLMs в контексте фарси, мы разработали специальный тестовый набор данных, состоящий из 1,2 тысячи задач, оцениваемых по каждому из шести перечисленных аспектов. Мы использовали как автоматизированные, так и ручные методы для оценки вклада каждой модели. Оптимизация автоматизированных методов была основана на нейронных сетях, чтобы эффективно провести анализ и сравнение полученных результатов. Для того, чтобы добиться более точных и репрезентативных результатов, мы также включили в эксперимент ручную оценку от экспертов, чтобы предотвратить потенциальные ошибки в автоматической оценке.
## Результаты
Мы оценили 8 популярных моделей, включая ChatGPT, Claude, DeepSeek, Gemini, Grok, LLaMA, Mistral и Qwen. Результаты показали, что ни одна модель не показала идеальный результат во всех шести аспектах. Наиболее заметными недостатками была безопасность, которая, как оказалось, является критическим аспектом для фарси. Другие модели показали сильные стороны в разных областях, но в целом, надежность в контексте фарси остается значительной проблемой.
## Значимость
Эта работа имеет значительное значение для развития культурно ориентированных технологий, особенно в контексте немногоизученных языков, таких как фарси. Наши результаты могут быть применены для улучшения надежности LLMs, а также для создания более ответственных и этичных моделей, учитывающих культурные нормы разных регионов. Это также подчеркивает необходимость внедрения культурной корректности в процесс