An Approach to Grounding AI Model Evaluations in Human-derived Criteria
2509.04676v1
cs.AI, cs.HC
2025-09-09
Авторы:
Sasha Mitts
Резюме на русском
#### Контекст
Область исследования связана с проблемами оценки и моделирования возможностей искусственного интеллекта (AI) в соответствии с учётными записями, полученными от людей. Традиционные подходы, основанные на статистических метриках и искусственных задачах, часто не могут успешно воспроизвести сложные и нелинейные аспекты человеческого разума. Это приводит к проблемам в интерпретируемости результатов и несоответствию моделей жизненным ситуациям. Задача состоит в том, чтобы разработать более жизнеспособный подход к оценке моделей AI, который учитывает субъективные и эмпатические особенности людского мышления.
#### Метод
Методология исследования основывается на предложенной модели, которая включает в себя интервью с экспертами, масштабные опросы и анализ ответов. Мы вводим следующие ключевые параметры для оценки: Логическое Мышление, Запоминающая Способность, Различение Реальности, Интерпретация Контекста. Эти параметры были проанализированы в рамках двух широко известных бенчмарков: Perception Test и OpenEQA. Наши исследования также включают использование многомерной статистики и сравнение результатов моделей AI с поведением человека.
#### Результаты
В результате исследований было выявлено, что AI модели неудовлетворительно справляются с задачами, требующими высоких уровней интерпретации и эмпатии. Они демонстрируют высокую точность в решении логических задач, но значительно отстают в аспектах, в которых требуется интеллектуальная гибкость и умение учитывать контекст. Наша модель показала, что люди выделяют эти области как критически важные для современных моделей AI. Выявленная разница в поведении позволила создать новый подход к разработке бенчмарков, которая учитывает эти нужды.
#### Значимость
Новый подход к оценке моделей AI имеет широкие применения в развитии интеллектуальных систем. Он может быть использован в сферах, где требуется высокий уровень контекстной интерпретации, таких как робототехника, разработка пользовательских интерфейсов или системы поддержки принятия решений. Этот подход позволит создавать более человечно-ориентированные модели, улучшая их применимость в реальной жизни. Это также открывает путь к улучшению интеллектуальных систем, которые будут более эффективны в обработке комплексных задач, требующих эмпатии и простоты в интерпретации.
#### Выводы
Мы доказали, что новый подход к определению критериев оценки AI моделей позволяет сделать их оценку более точной и полезной в реальных ситуациях. Однако, в дальнейших исследо
Abstract
In the rapidly evolving field of artificial intelligence (AI), traditional
benchmarks can fall short in attempting to capture the nuanced capabilities of
AI models. We focus on the case of physical world modeling and propose a novel
approach to augment existing benchmarks with human-derived evaluation criteria,
aiming to enhance the interpretability and applicability of model behaviors.
Grounding our study in the Perception Test and OpenEQA benchmarks, we conducted
in-depth interviews and large-scale surveys to identify key cognitive skills,
such as Prioritization, Memorizing, Discerning, and Contextualizing, that are
critical for both AI and human reasoning. Our findings reveal that participants
perceive AI as lacking in interpretive and empathetic skills yet hold high
expectations for AI performance. By integrating insights from our findings into
benchmark design, we offer a framework for developing more human-aligned means
of defining and measuring progress. This work underscores the importance of
user-centered evaluation in AI development, providing actionable guidelines for
researchers and practitioners aiming to align AI capabilities with human
cognitive processes. Our approach both enhances current benchmarking practices
and sets the stage for future advancements in AI model evaluation.
Ссылки и действия
Дополнительные ресурсы: