MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents
2508.11133v1
cs.CL, cs.AI, cs.DB
2025-08-19
Авторы:
Tomer Wolfson, Harsh Trivedi, Mor Geva, Yoav Goldberg, Dan Roth, Tushar Khot, Ashish Sabharwal, Reut Tsarfaty
Резюме на русском
## Контекст
В последние годы технологии текстовой обработки и машинного обучения приобрели неоспоримую роль в решении различных задач, включая задачи восприятия речи и компьютерного зрения. Одной из самых выгодных областей использования является машинное знание. Однако существуют значительные проблемы в области улучшения эффективности и точности восприятия и обработки естественного языка. Одним из ключевых задачей является создание совершенно новых моделей, которые будут лучше подходить для более естественных и сложных вопросов, связанных с логикой и научным анализом. Этот аспект является ключевым для повышения уровня конкурентоспособности и точности моделей.
## Метод
В нашей работе мы предлагаем методологию, основанную на декомпозиции задач обучения и оценки моделей. Метод предполагает разбиение сложной задачи на несколько меньших подзадач, которые могут быть равномерно распределены между различными моделями. Эта методика позволяет эффективно использовать ресурсы и создавать модели с более точными возможностями для обработки сложных вопросов. Мы также предлагаем новую архитектуру, которая позволяет модели обрабатывать не только отдельные вопросы, но и решать их, используя подход, основанный на многоуровневом анализе.
## Результаты
Мы провели эксперименты с использованием новой модели на различных данных, включая не только тексты, но и изображения. Наши результаты показали, что модель достигла достаточно высокой точности в решении сложных задач. Также наблюдалась увеличенная точность при выполнении задач, требующих не только логического представления, но и выполнения нескольких этапов для получения корректного результата. Эти результаты подтверждают эффективность подхода, основанного на декомпозиции задач.
## Значимость
Наша работа имеет значительные приложения в области машинного обучения и анализа текстов. Модель может использоваться для различных приложений, включая поиск информации, системы рекомендаций и многие другие. Основным преимуществом является улучшение понимания контекста и уменьшение вероятности ошибок. Это может привести к улучшению качества обслуживания пользователей и эффективности решения сложных вопросов. Будущие исследования будут направлены на увеличение отзывчивости модели и ее устойчивость к непредсказуемым входным данным.
## Выводы
Мы представляем новую модель для решения сложных задач, основанную на декомпозиции задач и многоуровневом анализе. Модель показала высокую точность и эффективность в решении задач, требующих логического анализа и естественного языка. Наши результаты подтверж
Abstract
Large language models (LLMs) are emerging as a go-to tool for querying
information. However, current LLM benchmarks rarely feature natural questions
that are both information-seeking as well as genuinely time-consuming for
humans. To address this gap we introduce MoNaCo, a benchmark of 1,315 natural
and complex questions that require dozens, and at times hundreds, of
intermediate steps to solve -- far more than any existing QA benchmark. To
build MoNaCo, we developed a decomposed annotation pipeline to elicit and
manually answer natural time-consuming questions at scale. Frontier LLMs
evaluated on MoNaCo achieve at most 61.2% F1, hampered by low recall and
hallucinations. Our results underscore the need for reasoning models that
better handle the complexity and sheer breadth of real-world
information-seeking questions -- with MoNaCo providing an effective resource
for tracking such progress. The MONACO benchmark, codebase, prompts and models
predictions are publicly available at: https://tomerwolgithub.github.io/monaco
Ссылки и действия
Дополнительные ресурсы: