📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MM-Food-100K: A 100,000-Sample Multimodal Food Intelligence Dataset with Verifiable Provenance

2025-08-16

Авторы:

Yi Dong, Yusuke Muraoka, Scott Shi, Yi Zhang

## Контекст Многомодальные данные, включающие многочисленные изображения и текстовые метки, являются ключевым ресурсом для развития искусственного интеллекта. Однако их уникальность и качество часто трудно проверить. У MP-Food-100K нет подобных проблем, так как этот мощный 100 000-выборочный датасет, состоящий из многомодальных данных об еде, поставляется с полностью проверяемой происхожденностью. Он является открытым 10% отрицательным тестовым подходом к 1,2 миллиону семантически обработанных изображений, отфильтрованных с учетом качества, собранных за шесть недель с участием более 87 000 участников. Эта работа была выполнена с помощью собственной модели Codatta для совмещения сообщественных усилий с технологиями AI-управленных проверок качества. Каждая подача связана с адресом электронного кошелька для трассируемости, а в будущем планируется перейти на полностью децентрализованный протокол на блокчейне. Многомодальность и проверка качества данных делают датасет уникальным и полезным для развития технологий обработки многомодальных данных. ## Метод MM-Food-100K был создан с использованием мощной контрибуционной модели Codatta, которая объединяет сообщественные усилия с AI-управляемыми проверками качества. Изображения были обработаны и аннотированы на различные атрибуты, такие как название блюда, регион его создания. Такой подход обеспечивает проверяемую происхожденность каждого образца датасета. Для подтверждения качества данных и их полезности для многомодальных задач был проведен эксперимент на тонкой настройке крупных зрения-языковых моделей (ChatGPT 5, ChatGPT OSS, Qwen-Max) на задачу прогнозирования питательных значений блюд на изображениях. Это подтвердило преимущества многомодальной модели и ее высокую полезность для решения задач обработки изображений. Данный подход стал ключевым для успеха датасета в тестировании и применении. ## Результаты В результате эксперимента, проведенного на основе MM-Food-100K, были получены улучшения в прогнозировании питательных значений блюд в сравнении с базовыми моделями. Использование тонкой настройки крупных зрения-языковых моделей позволило достичь консистентных повышений в основных метриках. На исходном датасете (1,2 миллиона изображений) было выделено 100 000 выборок, которые были открыто распространены в многомодальных задачах. В то же время остальные 90% данных остаются доступны для коммерческого применения с поддержкой модели доли децентрализованного дохода. Это делает MM-Food-100K как полезным для научных исследований, так и для практических приложений. ## Значимость Многомодальность и проверка качества данных делают датасет широко применимым

Annotation:

We present MM-Food-100K, a public 100,000-sample multimodal food intelligence dataset with verifiable provenance. It is a curated approximately 10% open subset of an original 1.2 million, quality-accepted corpus of food images annotated for a wide range of information (such as dish name, region of creation). The corpus was collected over six weeks from over 87,000 contributors using the Codatta contribution model, which combines community sourcing with configurable AI-assisted quality checks; ea...

ID: 2508.10429v1 cs.AI, cs.CR, cs.CV, I.2.10; I.2.6

arXiv PDF