## Контекст
Данная работа посвящена развитию DRISHTIKON — первого в своём роде многомодального и многоязыкового бенчмарка, ориентированного на тестирование понимания языковых моделей индийской культуры. Несмотря на значительные успехи в развитии общего языкового понимания, существуют ограничения в способности моделей понимать культурно-контекстуальные связи, особенно в контексте мультимодальных задач. DRISHTIKON адресован этим проблемам, предлагая специально подобранный набор данных, представляющий собой глубокий, многогранный и языково diversity-oriented портрет индийской культуры. Этот бенчмарк имеет значительное значение для расширения возможностей генерируемых AI-систем в области локальных и культурно-контекстуальных знаний.
## Метод
DRISHTIKON состоит из 15 языков, представляющих все штаты и унитарные территории Индии, и включает 64,000+ текстово-графических пар, скоррелированных с целью тщательного охвата культурного наследия. Бенчмарк покрывает различные аспекты культурного наследия, включая праздники, традиции, блюда, творчество и историческую стоимость. Для оценки визуально-языковых моделей (VLMs) использовались два подхода: zero-shot и chain-of-thought. Эти методы призваны оценить способность моделей выполнять логические, когнитивно-структурированные задачи в контексте культурных тем.
## Результаты
Запуск DRISHTIKON позволил выявить существенные недостатки в текущих моделях, особенно в области логического розыска и многоязычного понимания. Многоязычные модели показали более низкие показатели на низкоресурсных языках, а также на темах, характерных для менее документированных традиций. Это свидетельствует о нужде в улучшении моделей, чтобы они могли корректно работать в контексте культурно-краеведческих тем. Таким образом, DRISHTIKON обеспечивает ценный тестирующий механизм для развития культурно-понимающих технологий.
## Значимость
DRISHTIKON имеет большой потенциал в широком спектре применений, включая культурное знание, туризм, образование и мультимодальное общение с AI. Он позволяет улучшить способность моделей работать с культурно-специфическими текстами и изображениями, что в последствии может способствовать развитию индийской технологии. Кроме того, он мотивирует дальнейшие исследования в области мультимодального понимания и культурной контекстуализации генерируемых моделей.
## Выводы
DRISHTIKON является первым многоязычным многомодальным бенчмарком, специализированным на индийской культуре. Он выделяет основные проблемы в логи