📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Tobias R. Rebholz, Maxwell Uphoff, Christian H. R. Bernges, Florian Scholten
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
As algorithms increasingly mediate competitive decision-making, their influence extends beyond individual outcomes to shaping strategic market dynamics. In two preregistered experiments, we examined how algorithmic advice affects human behavior in classic economic games with unique, non-collusive, and analytically traceable equilibria. In Experiment 1 (N = 107), participants played a Bertrand price competition with individualized or collective algorithmic recommendations. Initially, collusively ...
Авторы:
Zirui Cheng, Jiaxuan You
Описание работы
=================
## Контекст
Large language models (LLMs) становятся все более важными в области стратегического взаимодействия, в частности в области подтолкивания и конверсий. Эти модели показали способность сопоставиться с уровнем человеческой способности к убеждению. Однако существуют серьезные проблемы, связанные с измерением их эффективности в различных сферах. Многие попытки оценки эффективности LLMs основываются на неконтролируемых методах, что приводит к непоследовательности и неточности. В настоящей работе рассматривается новый подход к измерению эффективности LLMs, используя теоретический фреймворк Bayesian Persuasion (BP). Этот подход позволяет определить и измерить качество убеждения посредством стратегического взаимодействия, построенного на заранее определенных данных.
## Метод
В этой работе предлагается фреймворк, основанный на теории Bayesian Persuasion, для измерения эффективности LLMs в стратегическом убеждении. Методология заключается в повторном использовании существующих наборов данных, полученных в условиях человеческого-человеческого взаимодействия. Эти данные преобразуются в среду, которая позволяет измерять точность убеждения LLMs. Основной инновацией является возможность адаптировать LLMs к различным стратегическим задачам с помощью теории BP. Фреймворк также включает в себя методы реинтеграции и оценки, которые позволяют измерять достигнутую эффективность.
## Результаты
Исследования показали, что передовые модели LLMs достигают высоких результатов в убеждении, согласно теоретическим прогнозам. Было продемонстрировано, что граничные модели LLMs могут постоянно охватывать более высокие значения убеждения. Были выявлены сложные стратегии убеждения, которые работают даже в условиях малого количества данных. Также был проведен эксперимент с использованием reinforcement learning для обучения LLMs к стратегическому убеждению. Наблюдалось, что даже небольшие модели LLMs могут быть значительно улучшены при помощи reinforcement learning, достигая высоких результатов в стратегическом убеждении.
## Значимость
Этот подход может быть применен в различных сферах, включая маркетинг, право, образование и медицину. Он может помочь улучшить узнаваемость и эффективность убеждения в стратегических задачах. Основные преимущества включают точную оценку качества убеждения, универсальность фреймворка и возможность применения к различным областям. В будущем могут быть рассмотрены расширения фреймворка для учета более сложных сред и улучшения методов интерпретирования результатов.
## Выводы
В настоящей работе был предложен новый фреймворк для измер
Annotation:
Large language models (LLMs) have demonstrated strong persuasive capabilities
comparable to those of humans, offering promising benefits while raising
societal concerns about their deployment. However, systematically evaluating
the persuasive capabilities of LLMs is inherently challenging, as the
effectiveness of persuasion among humans varies significantly across different
domains. In this paper, we take a theory-driven approach to provide a scalable
and principled framework for measuring the p...