MM-Food-100K: A 100,000-Sample Multimodal Food Intelligence Dataset with Verifiable Provenance
2508.10429v1
cs.AI, cs.CR, cs.CV, I.2.10; I.2.6
2025-08-16
Авторы:
Yi Dong, Yusuke Muraoka, Scott Shi, Yi Zhang
Резюме на русском
## Контекст
Многомодальные данные, включающие многочисленные изображения и текстовые метки, являются ключевым ресурсом для развития искусственного интеллекта. Однако их уникальность и качество часто трудно проверить. У MP-Food-100K нет подобных проблем, так как этот мощный 100 000-выборочный датасет, состоящий из многомодальных данных об еде, поставляется с полностью проверяемой происхожденностью. Он является открытым 10% отрицательным тестовым подходом к 1,2 миллиону семантически обработанных изображений, отфильтрованных с учетом качества, собранных за шесть недель с участием более 87 000 участников. Эта работа была выполнена с помощью собственной модели Codatta для совмещения сообщественных усилий с технологиями AI-управленных проверок качества. Каждая подача связана с адресом электронного кошелька для трассируемости, а в будущем планируется перейти на полностью децентрализованный протокол на блокчейне. Многомодальность и проверка качества данных делают датасет уникальным и полезным для развития технологий обработки многомодальных данных.
## Метод
MM-Food-100K был создан с использованием мощной контрибуционной модели Codatta, которая объединяет сообщественные усилия с AI-управляемыми проверками качества. Изображения были обработаны и аннотированы на различные атрибуты, такие как название блюда, регион его создания. Такой подход обеспечивает проверяемую происхожденность каждого образца датасета. Для подтверждения качества данных и их полезности для многомодальных задач был проведен эксперимент на тонкой настройке крупных зрения-языковых моделей (ChatGPT 5, ChatGPT OSS, Qwen-Max) на задачу прогнозирования питательных значений блюд на изображениях. Это подтвердило преимущества многомодальной модели и ее высокую полезность для решения задач обработки изображений. Данный подход стал ключевым для успеха датасета в тестировании и применении.
## Результаты
В результате эксперимента, проведенного на основе MM-Food-100K, были получены улучшения в прогнозировании питательных значений блюд в сравнении с базовыми моделями. Использование тонкой настройки крупных зрения-языковых моделей позволило достичь консистентных повышений в основных метриках. На исходном датасете (1,2 миллиона изображений) было выделено 100 000 выборок, которые были открыто распространены в многомодальных задачах. В то же время остальные 90% данных остаются доступны для коммерческого применения с поддержкой модели доли децентрализованного дохода. Это делает MM-Food-100K как полезным для научных исследований, так и для практических приложений.
## Значимость
Многомодальность и проверка качества данных делают датасет широко применимым
Abstract
We present MM-Food-100K, a public 100,000-sample multimodal food intelligence
dataset with verifiable provenance. It is a curated approximately 10% open
subset of an original 1.2 million, quality-accepted corpus of food images
annotated for a wide range of information (such as dish name, region of
creation). The corpus was collected over six weeks from over 87,000
contributors using the Codatta contribution model, which combines community
sourcing with configurable AI-assisted quality checks; each submission is
linked to a wallet address in a secure off-chain ledger for traceability, with
a full on-chain protocol on the roadmap. We describe the schema, pipeline, and
QA, and validate utility by fine-tuning large vision-language models (ChatGPT
5, ChatGPT OSS, Qwen-Max) on image-based nutrition prediction. Fine-tuning
yields consistent gains over out-of-box baselines across standard metrics; we
report results primarily on the MM-Food-100K subset. We release MM-Food-100K
for publicly free access and retain approximately 90% for potential commercial
access with revenue sharing to contributors.