📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Crystal Qian, Kehang Zhu, John Horton, Benjamin S. Manning, Vivian Tsai, James Wexler, Nithum Thain

## Контекст За последние годы возникла ситуация, когда во многих сферах жизнедеятельности задачи, которые раньше выполнялись людьми, теперь передаются автоматизированным агентам. Это направление особенно актуально в условиях развития искусственного интеллекта, когда роль роботов и автоматизированных систем становится все более значительной. Однако необходимо не только оценить их работу, но и изучить, как эти агенты обмениваются информацией и принимают решения в процессе взаимодействия. Эта проблема актуальна, так как разные агенты обладают разными преимуществами. Например, статистические агенты, такие как модели Байеса, могут очень эффективно работать в условиях, где окружающая среда хорошо определена и стабильна. Зато большие языковые модели (LLMs), такие как GPT-4 или Gemini 1.5 Pro, показывают свои преимущества в более широком контексте и способности к гибкой адаптации. В данной работе мы сравниваем работу людей, LLMs и статистических агентов в динамической среде, где им предлагается выполнить совместные задачи, которые требуют стратегического подхода и гибкости в поведении. ## Метод Мы проводили эксперименты, в которых участвуют люди (216 участников), статистические агенты, основанные на Байесовских моделях, и модели БООМ, такие как GPT-4 и Gemini 1.5 Pro. Участники должны были выполнять таск, в котором они должны были принимать решения в динамической и непредсказуемой ситуации, когда действия одного участника могут влиять на результаты других. Мы сравнивали не только результаты (то есть, сколько каждый участник получил в итоге), но и способы принятия решений, стратегии, работающие в этой ситуации. Эксперимент был проведен в условиях, когда все участники имели одинаковые инструменты и возможности, что позволило сделать компаративные выводы. ## Результаты В результатах мы обнаружили, что у каждого из участников были свои специфические стратегии. Байесовские агенты, оптимизируя безукоризненную логику, получили наибольшую суммарную сумму, но при этом их поведение было достаточно жестким. Они часто отклоняли предложения, что приводило к провалам в сотрудничестве. Люди и LLMs, в свою очередь, показали более сбалансированное поведение. Люди старались добиться справедливости, что приводило к более высокой сумме общего блага, но при этом их решения часто были более рискованными. LLMs, в свою очередь, старались сохранять консервативность, что привело к меньшему количеству отклонений, но при этом их результаты в суммарном плане не так высоки, как у людей. Таким образом, мы можем отметить, что каж
Annotation:
Coordination tasks traditionally performed by humans are increasingly being delegated to autonomous agents. As this pattern progresses, it becomes critical to evaluate not only these agents' performance but also the processes through which they negotiate in dynamic, multi-agent environments. Furthermore, different agents exhibit distinct advantages: traditional statistical agents, such as Bayesian models, may excel under well-specified conditions, whereas large language models (LLMs) can general...
ID: 2509.09071v2 cs.AI, cs.GT, cs.HC
Авторы:

Crystal Qian, Kehang Zhu, John Horton, Benjamin S. Manning, Vivian Tsai, James Wexler, Nithum Thain

## Контекст Область исследования сосредотачивается на изучении экономических торговых выгод между людьми и автоматизированными агентами в условиях беседы. Известно, что в последние годы автоматизация традиционно ручных задач приводит к увеличению роли автоматизированных агентов. Это создает необходимость эффективного сравнения их работы, будь то статистические модели или новые технологии, такие как LLMs. Изучение этих ситуаций позволяет не только оценить выполненные результаты, но и определить суть процесса, который используется для достижения результата. Ключевая мотивация заключается в том, что без полного понимания как агенты достигают результатов, невозможно корректно оценить их вклад в реальном мире. ## Метод Для изучения вышеописанной проблемы в ходе работы использовалась методология, включающую сравнение трех типов агентов: людей, LLMs (GPT-4o, Gemini 1.5 Pro) и статистических Bayesian-агентов. Эксперимент проводился в динамических негативных условиях, что позволило сравнить поведение всех участников в одинаковых условиях. Эксперимент назван "dynamic negotiation setting", чтобы оценить не только экономический итог, но и характер работы, процесс получения решений. Для сравнения использовались данные о поведении, результатах и алгоритмах принятия решений. ## Результаты На основе экспериментов было выявлено, что как люди, так и LLMs способны достигать эквивалентного экономического результата, но это достигается по разным способам. LLMs проявляют консервативный подход, часто прибегая к примирению и ценительности, что приводит к минимуму ошибок в выборе. Люди, в свою очередь, более стратегичны и рискованны в поведении, но при этом стремятся к справедливости и равноправию, что делает их решения более гибкими. Bayesian-агенты, напротив, ориентируются на максимальное получение выгоды, но это приводит к частым отказам в концовке. ## Значимость Результаты имеют большую значимую в сферах, где необходимо оптимальное согласование в условиях многоагентной среды, например, в области торговли, логистики, или даже в интеллектуальной работе. Особенно важно, что работа показывает, что высокий экономический результат не всегда означает эффективность в процессе, так как разные агенты могут прийти к одинаковому итогу по разным путям. Это потенциально влияет на технологические решения, включая разработку более гуманных и удобных интерфейсов, в которых необходимо учитывать не только результат, но и процесс, который достигает этого результата. ## Выводы Основными достижениями работы является подтверждение того, что LLMs и люди могут достигать эквивалентных экономических результатов,
Annotation:
Coordination tasks traditionally performed by humans are increasingly being delegated to autonomous agents. As this pattern progresses, it becomes critical to evaluate not only these agents' performance but also the processes through which they negotiate in dynamic, multi-agent environments. Furthermore, different agents exhibit distinct advantages: traditional statistical agents, such as Bayesian models, may excel under well-specified conditions, whereas large language models (LLMs) can general...
ID: 2509.09071v1 cs.AI, cs.GT, cs.HC
Авторы:

S Krishna Niketh, Sagar Babu Mitikiri, V Vignesh, Vedantham Lakshmi Srinivas, Mayukha Pal

## Контекст Современные системы энергетического потребления становятся все более зависимыми от киберфизических систем, что усиливает риск направленных атак в сфере кибербезопасности. Это направляет внимание на развитие эффективных методов укрепления резильентности. Особенно актуальным становится использование киберфизических микросетов, которые обладают сложной структурой и требуют сложных стратегий управления. Целью данной статьи является разработка математически корректного фреймворка для оценки резильентности микросетов, используя теорию игр и мульти-агентные глубокие оптимизационные алгоритмы. ## Метод В статье предлагается формализовать модель резильентности микросетов с использованием теории игр и мульти-агентного метода. Авторы разработали метрики, включающие: Мощность Сервируемой Загрузки (LSR), Критическую Загрузку (CLR), Топологическую Устойчивость (TSS) и Метрику Дистрибьютора Энергии (DER). Эти метрики включены в однородную матрицу взаимодействий атаки-обороны с помощью Аналитического Иерархического Процесса (AHP). Основным методологическим подходом является Finite Horizon Markov Decision Process (MDP), где для проблемы оптимизации решается задача взаимодействия временных рядов с помощью мульти-агентного глубокого обучения. ## Результаты Для тестирования фреймворка, авторы использовали модель IEEE 33-узлов с сетями управления и DER (Distributed Energy Resources). Для оценки результатов, разработчики провели три эксперимента: 1. Анализ статических атак с использованием Нашевого равновесия; 2. Анализ серьезных атак, включающих высокоэффективные стратегии; 3. Адаптивные атаки с использованием Stackelberg-игр, regret matching, softmax-распределения и мульти-агентного Q-learning. Результаты показали, что адаптивные стратегии увеличивают LSR на 18.7% и CLR на 2.1% в сравнении с статическими методами. Также были описаны вычислительные анализы сложности и были демонстрированы гарантии обучения с помощью PAC. ## Значимость Разработанный фреймворк может быть применен в различных киберфизических системах, включая гриды с высокой степенью динамики и сложности. Он демонстрирует преимущества стратегического подхода и способности адаптироваться к угрозам в реальном времени, что повышает уровень безопасности и производительность систем. Это имеет потенциал для улучшения эффективности и стабильности в работе киберфизических систем. ## Выводы Результаты показали, что использование мульти-агентного глубокого обучения эффективно для применения в киберфизических системах, улучша
Annotation:
The increasing reliance on cyber physical infrastructure in modern power systems has amplified the risk of targeted cyber attacks, necessitating robust and adaptive resilience strategies. This paper presents a mathematically rigorous game theoretic framework to evaluate and enhance microgrid resilience using a combination of quantitative resilience metrics Load Served Ratio LSR, Critical Load Resilience CLR, Topological Survivability Score TSS, and DER Resilience Score DRS. These are integrated ...
ID: 2509.08310v1 eess.SY, cs.AI, cs.GT, cs.SY
Авторы:

Lucas Lopes Felipe, Konstantin Avrachenkov, Daniel Sadoc Menasche

#### Контекст Community detection является одной из основных задач в области data science, состоящей в разбиении узлов графа на автономные сообщества. Одним из популярных подходов является Constant Potts Model (CPM). Однако, традиционный анализ CPM не учитывал его теоретическую базу в области теории игр, что чревато многочисленными проблемами. Наша мотивация заключается в разработке модели, которая объединяет эффективность, стабильность и точность в решении задачи community detection. #### Метод Мы представили CPM как hedonic game, в которой каждый узел графа является агентом, а его пользовательскую функцию определяется разницей между глобальным хэммитовским потенциалом и локальными утилитами каждого узла. Мы показали, что CPM может быть эффективно решено с помощью better-response dynamics, которые приводят к равновесному разбиению в полиномиальное время. Для характеристики стабильности разбиения, мы ввели два критерия: строгий, определяющий говорительность каждого узла в сообществе, и любезный, который учитывает весомую комбинацию обаяния и отвращения в рамках каждого сообщества. #### Результаты Мы провели ряд экспериментов на различных сетях для проверки работы нашего подхода. Для этого использовались многочисленные данные с разным размером и степенью сложности. В результате, CPM, представленный в виде hedonic game, показал себя как эффективный и точный подход к community detection, в том числе в сценариях community tracking, где начальное разбиение использовалось для инициализации Leiden-алгоритма. #### Значимость Наш метод может быть применен в различных областях, где требуется разбиение данных на автономные сообщества, например, в social network analysis, bioinformatics и других. Он предлагает значительные преимущества в скорости работы, точности и устойчивости к помехам в данных. Это делает нашу модель полезной для практических задач, где важно найти точные и стабильные разбиения. #### Выводы Мы развили новый подход к CPM с помощью игровой теории, показав его эффективность и точность в различных сценариях. Наш результат открывает новые возможности для развития и применения CPM в различных аспектах data science. Будущие исследования будут сфокусированы на улучшении стабильности разбиения и его применении в более сложных сетях.
Annotation:
Community detection is one of the fundamental problems in data science which consists of partitioning nodes into disjoint communities. We present a game-theoretic perspective on the Constant Potts Model (CPM) for partitioning networks into disjoint communities, emphasizing its efficiency, robustness, and accuracy. Efficiency: We reinterpret CPM as a potential hedonic game by decomposing its global Hamiltonian into local utility functions, where the local utility gain of each agent matches the co...
ID: 2509.03834v1 cs.LG, cs.AI, cs.GT
Авторы:

Yang Chen, Xiao Lin, Bo Yan, Libo Zhang, Jiamou Liu, Neset Özkan Tan, Michael Witbrock

## Контекст Инверсное обучение наград (IRL) в играх с многими агентами (mean field games, MFGs) является важной задачей в области машинного обучения. Она нацелена на то, чтобы инференцировать наградные функции для интерактивных агентов в системах с множеством участников. Однако существующие методы либо предполагают, что все агенты имеют одинаковые наградные функции, либо требуют предварительного знания о контексте задачи. Это ограничивает их применение в реальных ситуациях, где агенты могут иметь разные цели и неизвестные наградные функции. Наша исследовательская группа направляется на развитие методов, которые могут обучаться в условиях неопределенности и применяться к реальным задачам. ## Метод Мы предлагаем новую модель глубокого латентного переменного игры с многими агентами (MFGs), которая может интерпретировать различные наградные функции для агентов с неизвестными целями. Метод основывается на методике мета-инверсного обучения наград (Meta-Inverse Reinforcement Learning, Meta-IRL). Мы представляем MFG в виде комбинации латентных переменных и контекстных факторов, что позволяет модели обобщаться на разные задачи. Метод использует подход с нейронными сетями, который использует стохастический контекст для обучения модели в условиях изменчивости наградных функций. ## Результаты Мы провести всего 10 экспериментов на симулированных задачах и одной реальной задачей — моделировании ситуации с разными ценами на такси в зависимости от местоположения. Наши результаты показали, что метод мета-инверсного обучения наград превосходит традиционные IRL-методы в MFGs по ряду критериев: точности инференции наградных функций, устойчивости и общей эффективности. Ключевым доказательством является то, что наше решение может обучаться на одной задаче и применяться к другой без изменения модели. ## Значимость Наш метод может применяться в различных задачах, где необходимо инференцировать наградные функции в системах с множеством агентов. Например, модель может применяться в играх, логистике, автоматизированной экономике и других областях, где необходимо логически корректно определить наградные функции. Наш подход демонстрирует высокую точность и гибкость, что делает его полезным для решения реальных проблем. ## Выводы Мы представили метод мета-инверсного обучения наград для MFGs, который может интерпретировать неизвестные наградные функции в различных условиях. Наши эксперименты показали, что этот подход оказался более эффективным, чем существующие методы. Мы планируем продолжить развивать эту область, в том числе расширить модель для более сложных задач и провести дополнительные эксп
Annotation:
Designing suitable reward functions for numerous interacting intelligent agents is challenging in real-world applications. Inverse reinforcement learning (IRL) in mean field games (MFGs) offers a practical framework to infer reward functions from expert demonstrations. While promising, the assumption of agent homogeneity limits the capability of existing methods to handle demonstrations with heterogeneous and unknown objectives, which are common in practice. To this end, we propose a deep latent...
ID: 2509.03845v1 cs.LG, cs.AI, cs.GT
Авторы:

Zakaria El Jaafari

## Контекст Monte Carlo Counterfactual Regret Minimization (MCCFR) является революционным алгоритмом для решения игр расширенной формы, но его интеграция с нейронными сетями сталкивается с рядом теоретических и практических рисков. Эти проблемы возникают различно в зависимости от сложности игры. Особенно выдающиеся препятствия включают нестационарные сдвиги целевой дистрибуции, коллапс поддержки действий, взрыв дисперсии и проблемы с начальной настройкой. Эти риски требуют индивидуального подхода в зависимости от размера игры. Данная работа проводит подробную аналитическую работу по идентификации этих рисков и предлагает методику их устранения в рамках нейронных MCCFR-фреймворков. ## Метод Методология основывается на создании адаптивного фреймворка, который учитывает специфику разных размеров игр. Основные компоненты включают целевые сети с задержкой обновлений, смешивание эксплорирования, объективные функции с учетом дисперсии и мониторинг. Архитектура строится на базе Robust Deep MCCFR, который включает в себя все эти компоненты и позволяет применять их в зависимости от размера игры. Абляционные эксперименты проводятся на играх Kuhn Poker и Leduc Poker, чтобы классифицировать эффективность каждого компонента и выяснить критические взаимодействия. ## Результаты На Kuhn Poker, где используется функциональный подход, Robust Deep MCCFR показывает снижение эксплойтируемости до 0.0628, что является 60% лучше классического подхода (0.156). На Leduc Poker, более сложной игре, селективный подход позволяет получить эксплойтируемость 0.2386, что составляет 23.5% лучше классического подхода (0.3703). Эти результаты подтверждают не только эффективность компонентов, но и важность осторожного выбора и их интеграции в зависимости от размера игры. ## Значимость Работа предлагает практическое решение для устранения теоретических рисков в нейронных MCCFR, что может быть применено в различных областях, включая игровые алгоритмы, стратегическое моделирование и логическое программирование. Она предоставляет конкретные рекомендации и примеры для более эффективного использования алгоритмов в более сложных играх, что может принести пользу в исследованиях и реализациях различных моделей. ## Выводы Работа привносит несколько ключевых достижений: (1) формальный анализ рисков в нейронных MCCFR, (2) новую методику с приоритетом использования компонентов в зависимости от размера игры, (3) многомерные эксперименты, подтверждающие эффективность предложенных методов, и (4) практические рекомендации для применения в более крупных играх. Будущие исс
Annotation:
Monte Carlo Counterfactual Regret Minimization (MCCFR) has emerged as a cornerstone algorithm for solving extensive-form games, but its integration with deep neural networks introduces scale-dependent challenges that manifest differently across game complexities. This paper presents a comprehensive analysis of how neural MCCFR component effectiveness varies with game scale and proposes an adaptive framework for selective component deployment. We identify that theoretical risks such as nonstation...
ID: 2509.00923v1 cs.AI, cs.GT, stat.ML
Авторы:

Henrique Correia da Fonseca, António Fernandes, Zhao Song, Theodor Cimpeanu, Nataliya Balabanova, Adeela Bashir, Paolo Bova, Alessio Buscemi, Alessandro Di Stefano, Manh Hong Duong, Elias Fernandez Domingos, Ndidi Bianca Ogbo, Simon T. Powers, Daniele Proverbio, Zia Ush Shamszaman, Fernando P. Santos, The Anh Han, Marcus Krellner

## Контекст Развитие искусственного интеллекта (ИИ) становится одним из ключевых направлений современных технологий, но при этом сопряжено с рядом рисков. Недоверие к ИИ может возникать из-за нехватки прозрачности, недобросовестного использования или несоблюдения этических стандартов. Одной из проблем является то, что разработчики часто приобретают большее внимание к прибыли, чем к безопасности и этичности своих продуктов. Если пользователям недостаточно гарантий безопасного применения ИИ, то это может привести к ухудшению отношений с пользователями и даже к ухудшению общей репутации ИИ. Данное исследование возникло из потребности в определении методов, которые могут помочь вдохновить разработчиков ИИ на создание безопасных продуктов. ## Метод Мы использовали модели эволюционной игровой теории для исследования взаимодействия между разработчиками ИИ и пользователями. Разработчики ИИ должны решать, стоит ли они вложить время и ресурсы в безопасность своих продуктов, либо проигнорировать этот аспект для увеличения прибыли. Мы отслеживали, как эти решения влияют на поведение пользователей и репутацию разработчиков. В качестве входных данных мы использовали различные сценарии, в которых различались уровни доверия к медиа, уровни затрат на доступ к информации и разные уровни безопасности. ## Результаты Наши модели показали, что медиа могут стать сильным инструментом, поощряющим безопасность ИИ. Если у разработчиков ИИ есть доступ к надежной информации о безопасности и если у пользователей есть возможность доступа к этим данным, то разработчики становятся более вероятными к созданию безопасных продуктов. В то же время, когда доступ к информации ограничен или уровень доверия к медиа низкий, то разработчики чаще отдают предпочтение прибыли вместо безопасности. Мы также выяснили, что при высоких затратах на доступ к медиа или высокие затраты на безопасность, разработчики могут прибегать к небезопасным решениям, что повлияет на их репутацию и доверие пользователей. ## Значимость Наши результаты показывают, что медиа может стать важной формой "мягкого регулирования" в сфере ИИ, даже в отсутствии формальных правовых мероприятий. Они подтверждают, что ИИ может быть безопасным, если разработчики активно будут отвечать за их действия и если пользователи могут получать доступ к достоверной информации. Из этого можно сделать вывод, что средства массовой информации могут вдохновить разработчиков на создание безопасных продуктов, которые будут широко приниматься пользователями. Таким образом, медиа мо
Annotation:
When developers of artificial intelligence (AI) products need to decide between profit and safety for the users, they likely choose profit. Untrustworthy AI technology must come packaged with tangible negative consequences. Here, we envisage those consequences as the loss of reputation caused by media coverage of their misdeeds, disseminated to the public. We explore whether media coverage has the potential to push AI creators into the production of safe products, enabling widespread adoption of...
ID: 2509.02650v1 cs.AI, cs.GT, q-bio.PE
Авторы:

Chinmay Maheshwari, Chinmay Pimpalkhare, Debasish Chatterjee

## Контекст Минимум-максимум (мин-макс) оптимизация широко распространена в областях, таких как игровая теория, машинное обучение с адверсарным подходом и другие. Обратите внимание, что градиентные методы, которые широко используются для решения таких задач, могут оказаться неэффективными в случаях, когда функции мин-макс не наследуют выпуклость или конкретные свойства. Особенно это касается задач мин-макс с невыпуклыми и неконкретными функциями. В данной работе рассматривается методология для поиска глобального оптимума в таких задачах. ## Метод Авторы предлагают EXOTIC (Exact, Optimistic, Tree-Based Algorithm) — алгоритм, основанный на деревьях и предназначенный для решения мин-макс задач. Основная идея заключается в преобразовании оптимизационной задачи в решаемую подходящими методами. Для этого вводится реформулировка задачи, которая превращает мин-макс в макс-мин, при этом используется новое оптимизируемое выпукло-неконкретное представление. Для решения этой задачи используется итеративный серийный метод: оптимизатор выпуклой оптимизации решает внутреннюю задачу, тогда как внешняя задача решается с помощью деревового поиска. За счет этого подхода, алгоритм может находить глобальное решение с заданным точностью. ## Результаты На основе введенной модели проводились эксперименты, которые показали высокую эффективность EXOTIC в сравнении с градиентными методами. Были разработаны бенчмарк-проблемы с аналитическими решениями, что позволило проверить EXOTIC на задачах с известными решениями. Эти тесты подтвердили высокую точность решений EXOTIC и сравнительную выгоду перед градиентными методами. Также были проведены эксперименты на реальных задачах мин-макс, в том числе в многоучастниковских играх. ## Значимость Этот алгоритм может быть применен в различных областях, где возникают задачи мин-макс, в том числе в машинном обучении, игровой теории и других задачах, требующих глобального решения. В отличие от градиентных методов, EXOTIC обеспечивает глобальное решение, что является ключевым преимуществом в задачах с неконкретными и невыпуклыми функциями. Это может привести к значительным выгодам в сложных задачах, таких как безопасность в многоучастниковских играх или оптимизация в сложных системах. ## Выводы В ходе работы был предложен новый алгоритм EXOTIC для решения мин-макс задач. Алгоритм показал себя эффективнее существующих градиентных методов на бенчмарк-задачах и практических примерах. Основным направлением для будущих исследований является улучшение эффективности алгоритма для более возможного сложных задач, а такж
Annotation:
Min-max optimization arises in many domains such as game theory, adversarial machine learning, etc., with gradient-based methods as a typical computational tool. Beyond convex-concave min-max optimization, the solutions found by gradient-based methods may be arbitrarily far from global optima. In this work, we present an algorithmic apparatus for computing globally optimal solutions in convex-non-concave and non-convex-concave min-max optimization. For former, we employ a reformulation that tran...
ID: 2508.12479v1 math.OC, cs.AI, cs.GT, cs.MA, econ.GN, q-fin.EC, 90C26, 90C47, 68Q32, 91A06, 65K05
Авторы:

Joshua Caiata, Ben Armstrong, Kate Larson

## Контекст В современной социальной сфере возникают задачи по выбору комитета или решения формальных вопросов, которые требуют учета предпочтений группы людей. Эти проблемы исследуются в области социального выбора, где акцент делается на теоретических моделях и аксиомах, определяющих качество выбора. Однако на практике традиционные модели часто не учитывают собственности специфических данных и предпочтений. Это приводит к проблемам в выборе, включая неэффективность, непоследовательность и неэтичность решений. В данной работе предлагается новый подход, основанный на анализе реальных данных, для оценки того, какие аксиомы выполнены в практических сценариях. ## Метод Методология основывается на создании фреймворка, который использует машинное обучение, а именно глубокие нейронные сети, для выявления и оценки аксиом, которые определяют качество выбора в многокритериальных ситуациях. Метод включает создание моделей, которые могут генерировать предпочтения и анализировать результаты работы различных многокритериальных алгоритмов выбора. Была разработана архитектура, позволяющая учитывать не только теоретические модели, но и практические данные. Эта архитектура рассчитана на усиление понимания взаимосвязей между практическими и теоретическими аспектами выбора. ## Результаты Экспериментальные результаты показывают, что нейронные сети, использующие алгоритмы глубокого обучения, могут демонстрировать значительное улучшение в выполнении аксиом в сравнении с традиционными методами. Использование различных данных для тестирования показало, что на практике традиционные методы часто приводят к высоким значениям несоответствий. Однако модели, основанные на нейронных сетях, демонстрируют более высокую точность в достижении поставленных целей и меньшую вероятность противоречий. Эти результаты подтверждают значимость использования интеллектуальных технологий в социальных выборах. ## Значимость Предложенная модель может применяться в различных сферах, включая политические решения, государственное управление, корпоративные структуры и даже цифровые платформы. Она предоставляет более точные и эффективные методы для определения лучших решений в сложных ситуациях, в которых требуется учесть множество факторов и предпочтений. Это не только улучшает качество выбора, но и повышает прозрачность и этичность решений. Будущие исследования будут сконцентрированы на расширении модели для учета более сложных предпочтений и взаимосвязей. ## Выводы Результаты нашего исследования указывают на значительные преимущест
Annotation:
Committee-selection problems arise in many contexts and applications, and there has been increasing interest within the social choice research community on identifying which properties are satisfied by different multi-winner voting rules. In this work, we propose a data-driven framework to evaluate how frequently voting rules violate axioms across diverse preference distributions in practice, shifting away from the binary perspective of axiom satisfaction given by worst-case analysis. Using this...
ID: 2508.06454v1 cs.AI, cs.GT
Авторы:

Lucia Cipolina-Kun, Marianna Nezhurina, Jenia Jitsev

**Резюме:** В статье представлен фреймворк Board Game Arena, предназначенный для оценки способностей крупных языковых моделей (LLM) к стратегическому принятию решений через игры. Используя библиотеку Google OpenSpiel, фреймворк обеспечивает систематическое сравнение LLM-агентов с другими типами агентов (случайными, человеческими, обученными усилением) в различных типах игр. Он поддерживает интеграцию с API моделей через LiteLLM, локальную развёртку моделей с vLLM и распределённое выполнение задач через Ray. Также предлагаются инструменты для детального анализа процессов резонирования LLM. Результаты показывают, что фреймворк эффективен для эмпирической оценки способностей LLMs к логическому мышлению и игротеоретическому поведению, предоставляя солидную базу для дальнейшего исследования в этой области.
Annotation:
The Board Game Arena library provides a framework for evaluating the decision making abilities of large language models (LLMs) through strategic board games implemented in Google OpenSpiel library. The framework enables systematic comparisons between LLM based agents and other agents (random, human, reinforcement learning agents, etc.) in various game scenarios by wrapping multiple board and matrix games and supporting different agent types. It integrates API access to models via LiteLLM, local ...
ID: 2508.03368v1 cs.AI, cs.GT
Показано 21 - 30 из 30 записей