UQ: Assessing Language Models on Unsolved Questions
2508.17580v1
cs.CL, cs.AI, cs.LG
2025-08-27
Авторы:
Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff
Резюме на русском
#### Контекст
Лидерская роль искусственного интеллекта (ИИ) в современном мире обусловлена не только способностью решать данные задачи, но и возможностью эффективно решать новые и нестандартные проблемы. Одним из ключевых аспектов ИИ является его способность решать задачи, которые не только трудны для существующих моделей, но и имеют реальную практическую ценность. Бенчмарки, используемые для оценки моделей ИИ, должны быть как сложными, так и реалистичными. Несмотря на это, существуют проблемы с тензионным отношением между сложностью и реализму: бенчмарки, основанные на экзаменовой системе, часто являются сильно усложненными и имеют ограниченную реальную ценность, в то время как бенчмарки, основанные на реальных пользовательских запросах, часто ориентированы на простые, высокочастотные проблемы. В этой работе мы предлагаем новую идею: оценивать модели ИИ на неразрешенных вопросах. Это позволяет использовать набор вопросов, которые характеризуются своей сложностью и практическим значением, так как решение их может представлять собой реальное значение для человечества.
#### Метод
Мы представляем UQ — новый тип бенчмарка, основанный на неразрешенных вопросах, которые не только трудны для существующих моделей, но и отражают реальные ситуации. Методология UQ включает в себя сложную систему проверки вопросов, использующую комбинацию правил, генеративных моделей и ручных проверки. Мы также разработали стратегию валидации, основывающуюся на конфликте между генеративными моделями и валидаторами, чтобы обеспечить достоверную оценку решений. Бенчмарк UQ включает 500 вопросов, сконцентрированных на различных областях, таких как теория компьютеров, математика, научная фантастика и история. Эти вопросы проверяют навыки моделей, такие как рассуждения, фактическая правильность и браузерные навыки. Мы также разработали платформу, где эксперты могут проверять вопросы и решения.
#### Результаты
Эксперименты показали, что лучшие модели способны решить только 15% вопросов из UQ-бенчмарка. Это значительно меньше, чем в существующих бенчмарках. Мы также привлекли экспертов для верификации решений, и уже имеется ряд верифицированных правильных ответов на вопросы, которые модели смогли решить. Это указывает на то, что решение наших вопросов действительно представляет собой реальное значение и может быть использовано в реальном мире.
#### Значимость
UQ-бенчмарк представляет собой новую модель для оценки моделей ИИ, ориентированную на реальные, открытые проблемы. Он отличается от статически
Abstract
Benchmarks shape progress in AI research. A useful benchmark should be both
difficult and realistic: questions should challenge frontier models while also
reflecting real-world usage. Yet, current paradigms face a difficulty-realism
tension: exam-style benchmarks are often made artificially difficult with
limited real-world value, while benchmarks based on real user interaction often
skew toward easy, high-frequency problems. In this work, we explore a radically
different paradigm: assessing models on unsolved questions. Rather than a
static benchmark scored once, we curate unsolved questions and evaluate models
asynchronously over time with validator-assisted screening and community
verification. We introduce UQ, a testbed of 500 challenging, diverse questions
sourced from Stack Exchange, spanning topics from CS theory and math to sci-fi
and history, probing capabilities including reasoning, factuality, and
browsing. UQ is difficult and realistic by construction: unsolved questions are
often hard and naturally arise when humans seek answers, thus solving them
yields direct real-world value. Our contributions are threefold: (1) UQ-Dataset
and its collection pipeline combining rule-based filters, LLM judges, and human
review to ensure question quality (e.g., well-defined and difficult); (2)
UQ-Validators, compound validation strategies that leverage the
generator-validator gap to provide evaluation signals and pre-screen candidate
solutions for human review; and (3) UQ-Platform, an open platform where experts
collectively verify questions and solutions. The top model passes UQ-validation
on only 15% of questions, and preliminary human verification has already
identified correct answers among those that passed. UQ charts a path for
evaluating frontier models on real-world, open-ended challenges, where success
pushes the frontier of human knowledge. We release UQ at
https://uq.stanford.edu.
Ссылки и действия
Дополнительные ресурсы: