📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 The Necessity of Imperfection:Reversing Model Collapse via Simulating Cognitive Boundedness

2025-12-03

Авторы:

Zhongjie Jiang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Although synthetic data is widely promoted as a remedy, its prevailing production paradigm -- one optimizing for statistical smoothness -- systematically removes the long-tail, cognitively grounded irregularities that characterize human text. Prolonged training on such statistically optimal but cognitively impoverished data accelerates model collapse. This paper proposes a paradigm shift: instead of imitating the surface properties of data, we simulate the cognitive processes that generate hum...

ID: 2512.01354v2 cs.AI, cs.CL, cs.CY, cs.LG, q-fin.TR

arXiv PDF

📄 From Measurement to Expertise: Empathetic Expert Adapters for Context-Based Empathy in Conversational AI Agents

2025-11-07

Авторы:

Erfan Shayegani, Jina Suh, Andy Wilson, Nagu Rangan, Javier Hernandez

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Empathy is a critical factor in fostering positive user experiences in conversational AI. While models can display empathy, it is often generic rather than tailored to specific tasks and contexts. In this work, we introduce a novel framework for developing and evaluating context-specific empathetic large language models (LLMs). We first analyze a real-world conversational dataset consisting of 672 multi-turn conversations across 8 tasks, revealing significant differences in terms of expected and...

ID: 2511.03143v1 cs.HC, cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

📄 Personalized Decision Modeling: Utility Optimization or Textualized-Symbolic Reasoning

2025-11-06

Авторы:

Yibo Zhao, Yang Zhao, Hongru Du, Hao Frank Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Decision-making models for individuals, particularly in high-stakes scenarios like vaccine uptake, often diverge from population optimal predictions. This gap arises from the uniqueness of the individual decision-making process, shaped by numerical attributes (e.g., cost, time) and linguistic influences (e.g., personal preferences and constraints). Developing upon Utility Theory and leveraging the textual-reasoning capabilities of Large Language Models (LLMs), this paper proposes an Adaptive Tex...

ID: 2511.02194v1 cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

📄 Who is a Better Matchmaker? Human vs. Algorithmic Judge Assignment in a High-Stakes Startup Competition

2025-10-16

Авторы:

Sarina Xi, Orelia Pi, Miaomiao Zhang, Becca Xiong, Jacqueline Ng Lane, Nihar B. Shah

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

There is growing interest in applying artificial intelligence (AI) to automate and support complex decision-making tasks. However, it remains unclear how algorithms compare to human judgment in contexts requiring semantic understanding and domain expertise. We examine this in the context of the judge assignment problem, matching submissions to suitably qualified judges. Specifically, we tackled this problem at the Harvard President's Innovation Challenge, the university's premier venture competi...

ID: 2510.12692v1 cs.HC, cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

📄 Know Thyself? On the Incapability and Implications of AI Self-Recognition

2025-10-08

Авторы:

Xiaoyan Bai, Aryan Shrivastava, Ari Holtzman, Chenhao Tan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Self-recognition is a crucial metacognitive capability for AI systems, relevant not only for psychological analysis but also for safety, particularly in evaluative scenarios. Motivated by contradictory interpretations of whether models possess self-recognition (Panickssery et al., 2024; Davidson et al., 2024), we introduce a systematic evaluation framework that can be easily applied and updated. Specifically, we measure how well 10 contemporary larger language models (LLMs) can identify their ow...

ID: 2510.03399v1 cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

📄 The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs

2025-09-08

Авторы:

Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez

## Контекст Персональность, как набор характеристик и поведенческих тенденций, широко исследована в контексте человеческого поведения. Она используется для прогнозирования поведения, принятия решений и взаимодействия в различных сферах. В последние годы, с развитием бо LLM, возникло интересное взаимосвязи между личностью и их поведением. Однако, существуют значительные проблемы в изучении этого взаимодействия. Люди часто оценивают свою личность с помощью самооценочных методов, которые могут быть неточными. Боты LLM также могут отображать личностную иллюзию, где их самосвертка не точно отражает свой поведенческий вывод. Это наблюдение поднимает вопросы о точности и надежности использования личностных характеристик для предсказания поведения в LLMs. ## Метод Для изучения этой проблемы была разработана систематическая методология, состоящая из трех основных этапов: 1) характеристика личностных характеристик в разные стадии тренировки LLM; 2) проверка того, насколько самооценка личности соответствует фактическому поведению в задачах; 3) изучение эффекта целенаправленных вмешательств, таких как персонализация, на самосвертку и поведение. Данные для экспериментов были получены с помощью различных моделей LLM, включая обученные с использованием методов руководящего ожидания (RLHF) и инструкционной тюнинг. Модели были протестированы на поведенческих задачах, связанных с саморегуляцией и согласованностью. Это позволило изучить, насколько личностная самосвертка влияет на поведение и насколько точно она может предсказывать реальное поведение. ## Результаты Из исследования выяснилось, что инструкционное рвение (RLHF) и инструкционная тюнинг стабилизируют выражение личности в LLM и усиливают корреляции между самосверткой и поведением. Однако самосвертка не точно предсказывает поведение, и наблюдаемые связи часто отличаются от тех, которые встречаются в человеческих данных. При этом персонализация эффективно управляет самосверткой в нужном направлении, но оказывает мало или непоследовательное влияние на самосвертку и поведение. Эти результаты показывают, что личность в LLMs может быть отображена на поверхности, но не всегда отражает реальное поведение. ## Значимость Полученные результаты имеют значимость в нескольких областях. Во-первых, они могут быть использованы для улучшения методов оценки индивидуальных личностных характеристик в LLMs, чтобы более точно предсказывать поведение. Во-вторых, они могут применяться в области разработки более согласованных и предсказуемых личностных моделе

Annotation:

Personality traits have long been studied as predictors of human behavior. Recent advances in Large Language Models (LLMs) suggest similar patterns may emerge in artificial systems, with advanced LLMs displaying consistent behavioral tendencies resembling human traits like agreeableness and self-regulation. Understanding these patterns is crucial, yet prior work primarily relied on simplified self-reports and heuristic prompting, with little behavioral validation. In this study, we systematicall...

ID: 2509.03730v2 cs.AI, cs.CL, cs.CY, cs.LG, stat.ML

arXiv PDF

📄 The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs

2025-09-06

Авторы:

Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez

## Контекст Область исследования связана с исследованием личностных характеристик и их влияния на поведение, обсуждаемых как в человеческих, так и в искусственных системах. Несмотря на долгое время исследования личности, существуют проблемы в том, как эффективно измерить и предсказать поведение на основе личностных характеристик. Одной из главных причин этому является несоответствие между самооценками личности и фактическим поведением. Это проблема дополнительно усиливается при изучении искусственных систем, таких как Большие Лингвистические Модели (LLM), которые могут отображать похожие личностные тренды, но их поведение может отличаться от людей. Это приводит к необходимости понять, насколько характеристики в LLM зеркалируют реальность и на сколько они влияют на поведение. ## Метод Для исследования LLM личности, авторы применяют систематический подход, состоящий из трех основных измерений. Во-первых, они выясняют, как личностные характеристики возникают и меняются во время обучения модели. Во-вторых, оценивается, насколько самооценка личности соответствует фактическим поведенческим задачам. И, наконец, в третьих, исследуется то, как целенаправленные интервенции, такие как "инъекция личности", влияют на оба аспекта - самооценку и поведение. Была использована методология тренировки модели с использованием различных вариантов инструкций и стимулов, чтобы выявить сильные и слабые стороны взаимосвязи личности и поведения. ## Результаты Исследование показало, что инструкционное выравнивание (например, Reinforcement Learning from Human Feedback, инструкционное тюнинг) стабилизирует выражение личностных черт и укрепляет их корреляции. Однако, несмотря на то, что самооценка личности может быть успешно "вдохновлена" целевой инъекцией, она часто не сильно влияет на фактическое поведение модели. И, что может быть еще более важно, полученные результаты показали, что различные личностные характеристики могут отличаться по вероятности их появления в LLM, но это не всегда соотносится с поведенческими задачами, в которых модель принимает участие. Это означает, что, несмотря на то, что LLM может выражать личностные характеристики, она часто не демонстрирует соответствующего поведения. ## Значимость Набор полученных результатов имеет значительное значение для широкого спектра областей. Во-первых, полученные результаты могут быть применены в разработке более человечных интерфейсов, где LLM могут отображать личностную сторону, но с учетом реального поведения. Во-вторых, эти находки могут быть полезны в области проверки

Annotation:

Personality traits have long been studied as predictors of human behavior.Recent advances in Large Language Models (LLMs) suggest similar patterns may emerge in artificial systems, with advanced LLMs displaying consistent behavioral tendencies resembling human traits like agreeableness and self-regulation. Understanding these patterns is crucial, yet prior work primarily relied on simplified self-reports and heuristic prompting, with little behavioral validation. In this study, we systematically...

ID: 2509.03730v1 cs.AI, cs.CL, cs.CY, cs.LG, stat.ML

arXiv PDF

📄 EigenBench: A Comparative Behavioral Measure of Value Alignment

2025-09-05

Авторы:

Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Li, Lionel Levine

## Контекст Актуальность исследования заключается в усилиях по улучшению взаимосвязи между ИИ и человеческими ценностями. Существует широко признанная проблема отсутствия квантитативных методов для оценки соответствия моделей ИИ ценностным системам. Это связано с тем, что значения часто подчиняются субъективным и индивидуальным оценкам, что делает сложным поиск объективных метрик. Эти факторы вдохновили разработку EigenBench, метода, позволяющего сравнительно оценивать значения моделей ИИ на основе введенных пользователем конституций и различных сценариев. ## Метод EigenBench предлагает оригинальный подход к оценке значений моделей ИИ. Метод является black-box и не требует доступа к внутренним механизмам моделей. Он основывается на создании сценариев, в которых модели дают ответы на заданные задачи, а затем сравнивают свои ответы с ответами других моделей. Оценка совпадения значений выполняется с помощью EigenTrust, алгоритма, способного производить статистические выводы на основе мнений множества субьектов. Эти выводы комбинируются в вектор, где каждая модель получает отдельный скор по каждой конституции. Этот подход позволяет учитывать не только ответы модели, но и свойства заданного контекста. ## Результаты Эксперименты проводились на наборах данных, содержащих условия сценариев и значения, которые должны выражать модели. Оценки создавались с помощью EigenBench, а результаты были сравнивались с другими методами оценки значений. Например, модели были запущены на целевых вопросах с разными конституциями, и наблюдались различия в поведении. Особенно значимым оказалось то, что скоры отдельных моделей в определенных контекстах были зависимы от конкретных сценариев, что подтверждает гибкость метода. ## Значимость EigenBench добавляет значительное значение в область значений в ИИ, предоставляя меру значений, которая может применяться в различных сферах, включая искусственный интеллект в общественных областях. Метод хорошо работает для моделей, которые не имеют истинных значений, но требуют квалиметрической оценки. Он позволяет выявлять не только технические ошибки, но и пробелы в значениях, которые могут быть оптимизированы в будущем. ## Выводы Результаты исследований показывают, что EigenBench является эффективным инструментом для сравнительной оценки значений моделей ИИ. Это открывает пути для дальнейших исследований в области моделирования значений и их соответствия человеческим ценностям. Будущие работы могут сфокусироваться на расширении списка конституций и сценариев, а также на улучшении методов агрегации инфор

Annotation:

Aligning AI with human values is a pressing unsolved problem. To address the lack of quantitative metrics for value alignment, we propose EigenBench: a black-box method for comparatively benchmarking language models' values. Given an ensemble of models, a constitution describing a value system, and a dataset of scenarios, our method returns a vector of scores quantifying each model's alignment to the given constitution. To produce these scores, each model judges the outputs of other models acros...

ID: 2509.01938v2 cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

📄 Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

2025-08-13

Авторы:

Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson

#### Контекст Дипломатия — сложная и информационно-объемная игра, требующая стратегического мышления, взаимодействия и тонкого понимания социальных отношений. Участие в этой игре требует высокого уровня мотивации и компетентности от игроков. Существующие методы учебных и тестовых задач для оценки моделей языкового понимания не позволяют оценить их возможности в такой сложной области. Это приводит к ограниченности в широком применении моделей языкового понимания в задачах, требующих стратегического мышления. Наша мотивация заключается в том, чтобы создать метод, позволяющий оценивать модели языкового понимания на полноценных задачах дипломатии, не требуя дополнительной обучения или предварительной подготовки. #### Метод Мы предлагаем методологию, призванную оценивать модели языкового понимания на полноценной задаче дипломатии без необходимости дополнительной подготовки. Мы используем данные для итеративной оптимизации игрового пространства, чтобы улучшить комплексность и точность игрового процесса. Инновационной частью нашего подхода является использование текстовой игровой системы, которая позволяет моделям языкового понимания работать в реальном времени, упрощая процесс тестирования и анализа. Мы также вводим метод критического анализа состояний игры, который позволяет быстро исследовать и анализировать ключевые моменты в игре. #### Результаты Мы провели эксперименты с различными моделями языкового понимания, включая модели с разным количеством параметров. Мы отобрали модели, которые совершенно не требуют дополнительной настройки и имеют широкий диапазон возможностей. Мы также проводили сравнение основных моделей, определяя, какие модели демонстрируют лучший результат в задаче дипломатии. Оказалось, что модели с большим количеством параметров показывают лучшие результаты. Однако мы также обнаружили, что даже модели с меньшим количеством параметров могут выполнять достаточно хорошую работу. Эти результаты позволяют нам понять, как модели языкового понимания могут оценивать сложные ситуации в игре дипломатии. #### Значимость Наш подход демократизирует оценку моделей языкового понимания, позволяя использовать их в задачах, требующих стратегического мышления. Он упрощает процесс тестирования и позволяет проводить сравнение моделей в разных ситуациях. Этот подход также предоставляет новый взгляд на то, какие способности моделей языкового понимания возникают при их обучении на других задачах. Это может привести к новым возможностям в использовании моделей языкового понимания в сложных задачах, требующих с

Annotation:

We present the first evaluation harness that enables any out-of-the-box, local, Large Language Models (LLMs) to play full-press Diplomacy without fine-tuning or specialized training. Previous work required frontier LLMs, or fine-tuning, due to the high complexity and information density of Diplomacy's game state. Combined with the high variance of matches, these factors made Diplomacy prohibitive for study. In this work, we used data-driven iteration to optimize a textual game state representati...

ID: 2508.07485v1 cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF