An Approach to Grounding AI Model Evaluations in Human-derived Criteria

2509.04676v1 cs.AI, cs.HC 2025-09-09

Авторы:

Sasha Mitts

Резюме на русском

#### Контекст Область исследования связана с проблемами оценки и моделирования возможностей искусственного интеллекта (AI) в соответствии с учётными записями, полученными от людей. Традиционные подходы, основанные на статистических метриках и искусственных задачах, часто не могут успешно воспроизвести сложные и нелинейные аспекты человеческого разума. Это приводит к проблемам в интерпретируемости результатов и несоответствию моделей жизненным ситуациям. Задача состоит в том, чтобы разработать более жизнеспособный подход к оценке моделей AI, который учитывает субъективные и эмпатические особенности людского мышления. #### Метод Методология исследования основывается на предложенной модели, которая включает в себя интервью с экспертами, масштабные опросы и анализ ответов. Мы вводим следующие ключевые параметры для оценки: Логическое Мышление, Запоминающая Способность, Различение Реальности, Интерпретация Контекста. Эти параметры были проанализированы в рамках двух широко известных бенчмарков: Perception Test и OpenEQA. Наши исследования также включают использование многомерной статистики и сравнение результатов моделей AI с поведением человека. #### Результаты В результате исследований было выявлено, что AI модели неудовлетворительно справляются с задачами, требующими высоких уровней интерпретации и эмпатии. Они демонстрируют высокую точность в решении логических задач, но значительно отстают в аспектах, в которых требуется интеллектуальная гибкость и умение учитывать контекст. Наша модель показала, что люди выделяют эти области как критически важные для современных моделей AI. Выявленная разница в поведении позволила создать новый подход к разработке бенчмарков, которая учитывает эти нужды. #### Значимость Новый подход к оценке моделей AI имеет широкие применения в развитии интеллектуальных систем. Он может быть использован в сферах, где требуется высокий уровень контекстной интерпретации, таких как робототехника, разработка пользовательских интерфейсов или системы поддержки принятия решений. Этот подход позволит создавать более человечно-ориентированные модели, улучшая их применимость в реальной жизни. Это также открывает путь к улучшению интеллектуальных систем, которые будут более эффективны в обработке комплексных задач, требующих эмпатии и простоты в интерпретации. #### Выводы Мы доказали, что новый подход к определению критериев оценки AI моделей позволяет сделать их оценку более точной и полезной в реальных ситуациях. Однако, в дальнейших исследо

Abstract

In the rapidly evolving field of artificial intelligence (AI), traditional benchmarks can fall short in attempting to capture the nuanced capabilities of AI models. We focus on the case of physical world modeling and propose a novel approach to augment existing benchmarks with human-derived evaluation criteria, aiming to enhance the interpretability and applicability of model behaviors. Grounding our study in the Perception Test and OpenEQA benchmarks, we conducted in-depth interviews and large-scale surveys to identify key cognitive skills, such as Prioritization, Memorizing, Discerning, and Contextualizing, that are critical for both AI and human reasoning. Our findings reveal that participants perceive AI as lacking in interpretive and empathetic skills yet hold high expectations for AI performance. By integrating insights from our findings into benchmark design, we offer a framework for developing more human-aligned means of defining and measuring progress. This work underscores the importance of user-centered evaluation in AI development, providing actionable guidelines for researchers and practitioners aiming to align AI capabilities with human cognitive processes. Our approach both enhances current benchmarking practices and sets the stage for future advancements in AI model evaluation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

An Approach to Grounding AI Model Evaluations in Human-derived Criteria

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Persona-based Multi-Agent Collaboration for Brainstorming

Agentic AI Framework for Individuals with Disabilities and Neurodivergence: A Mu...

Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audi...

MoodBench 1.0: An Evaluation Benchmark for Emotional Companionship Dialogue Syst...

Using Wearable Devices to Improve Chronic PainTreatment among Patients with Opio...

Навигация