DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture

2509.19274v1 cs.CL, cs.MM 2025-09-25
Авторы:

Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha

Резюме на русском

## Контекст Данная работа посвящена развитию DRISHTIKON — первого в своём роде многомодального и многоязыкового бенчмарка, ориентированного на тестирование понимания языковых моделей индийской культуры. Несмотря на значительные успехи в развитии общего языкового понимания, существуют ограничения в способности моделей понимать культурно-контекстуальные связи, особенно в контексте мультимодальных задач. DRISHTIKON адресован этим проблемам, предлагая специально подобранный набор данных, представляющий собой глубокий, многогранный и языково diversity-oriented портрет индийской культуры. Этот бенчмарк имеет значительное значение для расширения возможностей генерируемых AI-систем в области локальных и культурно-контекстуальных знаний. ## Метод DRISHTIKON состоит из 15 языков, представляющих все штаты и унитарные территории Индии, и включает 64,000+ текстово-графических пар, скоррелированных с целью тщательного охвата культурного наследия. Бенчмарк покрывает различные аспекты культурного наследия, включая праздники, традиции, блюда, творчество и историческую стоимость. Для оценки визуально-языковых моделей (VLMs) использовались два подхода: zero-shot и chain-of-thought. Эти методы призваны оценить способность моделей выполнять логические, когнитивно-структурированные задачи в контексте культурных тем. ## Результаты Запуск DRISHTIKON позволил выявить существенные недостатки в текущих моделях, особенно в области логического розыска и многоязычного понимания. Многоязычные модели показали более низкие показатели на низкоресурсных языках, а также на темах, характерных для менее документированных традиций. Это свидетельствует о нужде в улучшении моделей, чтобы они могли корректно работать в контексте культурно-краеведческих тем. Таким образом, DRISHTIKON обеспечивает ценный тестирующий механизм для развития культурно-понимающих технологий. ## Значимость DRISHTIKON имеет большой потенциал в широком спектре применений, включая культурное знание, туризм, образование и мультимодальное общение с AI. Он позволяет улучшить способность моделей работать с культурно-специфическими текстами и изображениями, что в последствии может способствовать развитию индийской технологии. Кроме того, он мотивирует дальнейшие исследования в области мультимодального понимания и культурной контекстуализации генерируемых моделей. ## Выводы DRISHTIKON является первым многоязычным многомодальным бенчмарком, специализированным на индийской культуре. Он выделяет основные проблемы в логи

Abstract

We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual benchmark centered exclusively on Indian culture, designed to evaluate the cultural understanding of generative AI systems. Unlike existing benchmarks with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage across India's diverse regions, spanning 15 languages, covering all states and union territories, and incorporating over 64,000 aligned text-image pairs. The dataset captures rich cultural themes including festivals, attire, cuisines, art forms, and historical heritage amongst many more. We evaluate a wide range of vision-language models (VLMs), including open-source small and large models, proprietary systems, reasoning-specialized VLMs, and Indic-focused models, across zero-shot and chain-of-thought settings. Our results expose key limitations in current models' ability to reason over culturally grounded, multimodal inputs, particularly for low-resource languages and less-documented traditions. DRISHTIKON fills a vital gap in inclusive AI research, offering a robust testbed to advance culturally aware, multimodally competent language technologies.

Ссылки и действия

Связанные статьи

RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Sce...

## Контекст В последние годы стало ясно, что понимание множества изображений (multi-image understanding) является кллюч...

2025-09-24

Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

## Контекст Sarcasm detection является сложной задачей в области natural language understanding (NLU), так как sarcasm ч...

2025-09-23

Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents

## Контекст Современный мир охвачен всемиконный потоком мультимедийной информации. Это создает необходимость в развитии...

2025-09-18

Text2Sign Diffusion: A Generative Approach for Gloss-Free Sign Language Producti...

## Контекст Sign language production (SLP) является ключевым вопросом в области интеллектуальных технологий для продвиж...

2025-09-17