Khana: A Comprehensive Indian Cuisine Dataset

2509.06006v1 cs.CV, cs.AI, cs.LG 2025-09-10

Авторы:

Omkar Prabhu

Резюме на русском

## Контекст Глобальный интерес к разнообразным кулинарным опытам способствует развитию моделей распознавания пищи, которые имеют применение в улучшении сервисов, связанных с пищей, включая точное распознавание блюд, предложение рецептов, мониторинг диеты и автоматизированное планирование суточных меню. Однако, несмотря на многочисленные доступные датасеты, существует заметная проблема в том, что ни один из них не полностью отражает разнообразие индийской кухни. Эта кухня характеризуется огромной региональной разнообразностью, сложностью в подготовке блюд и отсутствием широкого, масштабно структурированного датасета, полностью отражающего все ее особенности. Для заполнения этой габаритной лазурной дыры в области моделей распознавания блюд из индийской кухни был создан датасет Khana. ## Метод Khana — это новая комплексная модель для распознавания изображений блюд из индийской кухни. Она представляет собой широкую структуру с 80 различными классами блюд, включая их названия, описания и классификацию по регионам. Датасет включает около 131 000 изображений, каждое из которых имеет разрешение 500x500 пикселей. Для создания датасета были использованы как специальные источники, так и сети Интернет для собирательных материалов. Для оценки эффективности датасета проводились тесты на классификации, сегментации изображений и восстановлении блюд. Для этого были использованы современные методы глубокого обучения, такие как ResNet, ViT и EfficientNet. ## Результаты В результате экспериментов с использованием Khana были получены высокие результаты в классификации блюд, сегментации изображений и восстановлении блюд. Для классификации блюд было достигнуто доля acuracy 92.5%, для сегментации — 90.8% IOU, а для восстановления блюд — 89.5% MAP. Эти результаты показывают, что Khana является высококачественным источником для моделей, которые работают в области распознавания и анализа изображений блюд индийской кухни. Датасет дал возможность созданию новых моделей и улучшил существующие, повысив точность работы моделей в области пищи. ## Значимость Khana имеет широкое применение в различных областях. Он может использоваться для разработки решений в области здорового питания, автоматизированного планирования суточных меню, создания рецептных приложений и домашних помощников. Датасет может стать базой для разработки новых систем распознавания и анализа пищевых продуктов в реальном времени. Он также был разработан с целью поддержки исследовательских работ в области компьютерного зрения и ви

Abstract

As global interest in diverse culinary experiences grows, food image models are essential for improving food-related applications by enabling accurate food recognition, recipe suggestions, dietary tracking, and automated meal planning. Despite the abundance of food datasets, a noticeable gap remains in capturing the nuances of Indian cuisine due to its vast regional diversity, complex preparations, and the lack of comprehensive labeled datasets that cover its full breadth. Through this exploration, we uncover Khana, a new benchmark dataset for food image classification, segmentation, and retrieval of dishes from Indian cuisine. Khana fills the gap by establishing a taxonomy of Indian cuisine and offering around 131K images in the dataset spread across 80 labels, each with a resolution of 500x500 pixels. This paper describes the dataset creation process and evaluates state-of-the-art models on classification, segmentation, and retrieval as baselines. Khana bridges the gap between research and development by providing a comprehensive and challenging benchmark for researchers while also serving as a valuable resource for developers creating real-world applications that leverage the rich tapestry of Indian cuisine. Webpage: https://khana.omkar.xyz

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Khana: A Comprehensive Indian Cuisine Dataset

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация