MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents

2508.11133v1 cs.CL, cs.AI, cs.DB 2025-08-19

Авторы:

Tomer Wolfson, Harsh Trivedi, Mor Geva, Yoav Goldberg, Dan Roth, Tushar Khot, Ashish Sabharwal, Reut Tsarfaty

Резюме на русском

## Контекст В последние годы технологии текстовой обработки и машинного обучения приобрели неоспоримую роль в решении различных задач, включая задачи восприятия речи и компьютерного зрения. Одной из самых выгодных областей использования является машинное знание. Однако существуют значительные проблемы в области улучшения эффективности и точности восприятия и обработки естественного языка. Одним из ключевых задачей является создание совершенно новых моделей, которые будут лучше подходить для более естественных и сложных вопросов, связанных с логикой и научным анализом. Этот аспект является ключевым для повышения уровня конкурентоспособности и точности моделей. ## Метод В нашей работе мы предлагаем методологию, основанную на декомпозиции задач обучения и оценки моделей. Метод предполагает разбиение сложной задачи на несколько меньших подзадач, которые могут быть равномерно распределены между различными моделями. Эта методика позволяет эффективно использовать ресурсы и создавать модели с более точными возможностями для обработки сложных вопросов. Мы также предлагаем новую архитектуру, которая позволяет модели обрабатывать не только отдельные вопросы, но и решать их, используя подход, основанный на многоуровневом анализе. ## Результаты Мы провели эксперименты с использованием новой модели на различных данных, включая не только тексты, но и изображения. Наши результаты показали, что модель достигла достаточно высокой точности в решении сложных задач. Также наблюдалась увеличенная точность при выполнении задач, требующих не только логического представления, но и выполнения нескольких этапов для получения корректного результата. Эти результаты подтверждают эффективность подхода, основанного на декомпозиции задач. ## Значимость Наша работа имеет значительные приложения в области машинного обучения и анализа текстов. Модель может использоваться для различных приложений, включая поиск информации, системы рекомендаций и многие другие. Основным преимуществом является улучшение понимания контекста и уменьшение вероятности ошибок. Это может привести к улучшению качества обслуживания пользователей и эффективности решения сложных вопросов. Будущие исследования будут направлены на увеличение отзывчивости модели и ее устойчивость к непредсказуемым входным данным. ## Выводы Мы представляем новую модель для решения сложных задач, основанную на декомпозиции задач и многоуровневом анализе. Модель показала высокую точность и эффективность в решении задач, требующих логического анализа и естественного языка. Наши результаты подтверж

Abstract

Large language models (LLMs) are emerging as a go-to tool for querying information. However, current LLM benchmarks rarely feature natural questions that are both information-seeking as well as genuinely time-consuming for humans. To address this gap we introduce MoNaCo, a benchmark of 1,315 natural and complex questions that require dozens, and at times hundreds, of intermediate steps to solve -- far more than any existing QA benchmark. To build MoNaCo, we developed a decomposed annotation pipeline to elicit and manually answer natural time-consuming questions at scale. Frontier LLMs evaluated on MoNaCo achieve at most 61.2% F1, hampered by low recall and hallucinations. Our results underscore the need for reasoning models that better handle the complexity and sheer breadth of real-world information-seeking questions -- with MoNaCo providing an effective resource for tracking such progress. The MONACO benchmark, codebase, prompts and models predictions are publicly available at: https://tomerwolgithub.github.io/monaco

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

OsmT: Bridging OpenStreetMap Queries and Natural Language with Open-source Tag-a...

Skeletons Matter: Dynamic Data Augmentation for Text-to-Query

Do LLMs Align with My Task? Evaluating Text-to-SQL via Dataset Alignment

Play by the Type Rules: Inferring Constraints for LLM Functions in Declarative P...

Explaining Black-box Language Models with Knowledge Probing Systems: A Post-hoc ...

Навигация