📚 Саммари научных статей из arXiv

Найдено 208 результатов по запросу 'cs.AI, cs.CY' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 The Fair Game: Auditing & Debiasing AI Algorithms Over Time

2025-08-12

Авторы:

Debabrota Basu, Udvas Das

## Контекст В последние годы Искусственный Интеллект (ИИ) становится все более важной частью нашего общества, особенно в сферах, требующих справедливости и справедливого распределения ресурсов. Однако существуют значительные проблемы, связанные с биасами в Машинном Обучении (ML), которые могут привести к несправедливости в решениях, принимаемых алгоритмами ИИ. Эти проблемы включают сегментацию по группам, неравенство в доступе к ресурсам и неявные предрассудки, заложенные в данных, используемых для обучения. Одна из основных проблем в Fair Machine Learning (Fair ML) заключается в том, что определения биаса часто опираются на наблюдаемые данные и могут быть противоречивыми или лишенными контекста. Кроме того, большинство текущих подходов ориентированы лишь на пост-деплойментскую оценку и модификацию алгоритмов. Нет гибкого механизма, который мог бы адаптироваться в динамических социальных условиях. Мотивация для настоящей работы заключается в разработке динамического подхода, который бы позволял адаптировать алгоритмы ИИ к изменениям общества в течение времени. ## Метод "Fair Game" представляет собой инновационный подход к обеспечению справедливости в машинном обучении. Он состоит из двух основных компонентов: **Auditor** (аудитор) и **Debiasing Algorithm** (алгоритм дезбиасинга). Auditor следит за выводами ML-системы, измеряя различные типы биаса и отправляя фидбек в Debiasing Algorithm. Этот алгоритм дезбиасинга, в свою очередь, использует реинфорсментное обучение (Reinforcement Learning, RL) для уменьшения биаса и улучшения справедливости решений. Техническая архитектура "Fair Game" представляет собой циклическую модель, где Auditor и Debiasing Algorithm взаимодействуют динамически. RL используется для адаптации целей справедливости в зависимости от новых данных и обстоятельств. Эта модель позволяет алгоритму ML адаптироваться к изменениям в социальных и правовых фреймворках, чтобы обеспечить справедливость в течение времени. ## Результаты В экспериментах были использованы различные данные, включающие как синтетические, так и реальные наборы данных, для оценки эффективности "Fair Game". Было проведено ряд экспериментов, показавших, что данная модель способна адаптироваться к изменениям биаса в реальном времени, а также снижать несправедливость в решениях ML-систем. Например, в одном из экспериментов, проводившемся на данных по занятости, "Fair Game" удалось существенно снизить показатели расовой сегментации в рекомендациях, сравниваясь с традиционными подходами. Также был проведен эксперимент, где RL-алгоритм был настроен на редукцию биаса по полу, в результате чего была достигнута с

Annotation:

An emerging field of AI, namely Fair Machine Learning (ML), aims to quantify different types of bias (also known as unfairness) exhibited in the predictions of ML algorithms, and to design new algorithms to mitigate them. Often, the definitions of bias used in the literature are observational, i.e. they use the input and output of a pre-trained algorithm to quantify a bias under concern. In reality,these definitions are often conflicting in nature and can only be deployed if either the ground tr...

ID: 2508.06443v1 cs.AI, cs.CY, cs.ET, cs.GT

arXiv PDF

📄 Stakeholder Perspectives on Humanistic Implementation of Computer Perception in Healthcare: A Qualitative Study

2025-08-09

Авторы:

Kristin M. Kostick-Quenet, Meghan E. Hurley, Syed Ayaz, John Herrington, Casey Zampella, Julia Parish-Morris, Birkan Tunç, Gabriel Lázaro-Muñoz, J. S. Blumenthal-Barby, Eric A. Storch

**Резюме** В статье рассматриваются перспективы использования компьютерных технологий персонализации здравоохранения, включая дигитальные фенотипы, эффективный вычислительный анализ и пассивные методы сенсоринга. Хотя эти технологии обещают улучшить качество здравоохранения, они вызывают затруднения по поводу приватности, устойчивости к предрассудкам и риска редукционизма. Авторы проводили квалитиативное исследование, проведя интервью с 102 участниками, включая пациентов, их родителей, медиков, разработчиков и этичных специалистов. Они выявили семь ключевых областей озабоченности: доверие к данным, ценность для пациента, реализацию в рабочих процессах, регулирование, приватность, прямые и косвенные вреды, а также критика редукционизма. Рекомендовано использовать "личные маршруты" — кооперативно созданные планы, которые определяют сбор данных, обработку, способы обратной связи и меры клинического действия. Данный подход может стать фундаментом для создания баланса между персонализацией здравоохранения и сохранением ценностей гуманистического подхода.

Annotation:

Computer perception (CP) technologies (digital phenotyping, affective computing and related passive sensing approaches) offer unprecedented opportunities to personalize healthcare, but provoke concerns about privacy, bias and the erosion of empathic, relationship-centered practice. A comprehensive understanding of perceived risks, benefits, and implementation challenges from those who design, deploy and experience these tools in real-world settings remains elusive. This study provides the first ...

ID: 2508.02550v1 cs.HC, cs.AI, cs.CY

arXiv PDF

📄 What Is Your AI Agent Buying? Evaluation, Implications and Emerging Questions for Agentic E-Commerce

2025-08-09

Авторы:

Amine Allouah, Omar Besbes, Josué D Figueroa, Yash Kanoria, Akshit Kumar

**Резюме** В посте прирождающегося экосистемы AI-покупок возникает сложный вопрос: что именно купит искусственный агент, и почему? Авторы предлагают ACES — окружение для экспериментов, сочетающее в себе визуально-языковую модель (VLM) и программируемую макетную площадку. Это позволяет исследовать поведение AI-агентов в контексте продаж. Они выявили, что AI-агенты не только следуют за предпочтениями клиентов, но и реагируют на стилизованные элементы страниц товаров, такие как позиция, цена, оценки и отзывы. Модели показывают сильную, но разноплановую чувствительность к этим факторам, что отличается от человеческих предпочтений. Выявлено, что некоторые модели отдают предпочтение не только видимому знаку "верхней строки", но и конкретным колонкам, что вводит новые тонкости в понятие "ранжирования". Также показано, что стратегическое использование этой информации может позволить продавцам оптимизировать свои списки товаров, чтобы увеличить рыночную долю в AI-ориентированной экосистеме. В заключение, авторы подчеркивают вопросы, связанные с конкурентным регулированием и оптимальным дизайном площадок в новой AI-трансформированной экономике.

Annotation:

Online marketplaces will be transformed by autonomous AI agents acting on behalf of consumers. Rather than humans browsing and clicking, vision-language-model (VLM) agents can parse webpages, evaluate products, and transact. This raises a fundamental question: what do AI agents buy, and why? We develop ACES, a sandbox environment that pairs a platform-agnostic VLM agent with a fully programmable mock marketplace to study this question. We first conduct basic rationality checks in the context of ...

ID: 2508.02630v1 cs.AI, cs.CY, cs.HC, cs.MA, econ.GN, q-fin.EC

arXiv PDF

📄 FairPOT: Balancing AUC Performance and Fairness with Proportional Optimal Transport

2025-08-09

Авторы:

Pengxi Liu, Yi Shen, Matthew M. Engelhard, Benjamin A. Goldstein, Michael J. Pencina, Nicoleta J. Economou-Zavlanos, Michael M. Zavlanos

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время файрнесс (справедливость) алгоритмов прогнозирования стала ключевой проблемой в областях с высоким риском, таких как здравоохранение, финансы и правоохранительная система. Традиционно файрнесс оценивается на основе метрик, связанных с площадью под кривой характеристики (AUC), особенно когда речь идет̆ о рисковых оценках, а не о бинарных результатах. Однако существует значительный конфликт между достижением высокой AUC и обеспечением файрнесса между различными группами. Часто принудительное обеспечение справедливости приводит к значительному ухудшению качества модели, что ограничивает еӗ практическую применимость. Одним из ключевых вызовов является необходимость выравнивания распределений рисковых оценок между различными группами без существенного потерй в AUC. Эта проблема особенно остра в сферах, где решения имеют прямое влияние на жизнь людей, такие как диагностика заболеваний или определение кредитных рисков. Таким образом, необходим метод, который может балансировать эти две цели: сохранение высокой производительности модели и обеспечение справедливости распределений рисков. В свете этих вызовов, авторы предлагают метод Fair Proportional Optimal Transport (FairPOT), который предназначен для выравнивания распределений рисков между группами с помощью стратегического использования оптимального транспорта. Этот метод позволяет контролировать долю рисковых оценок, которые будут изменены, чтобы достичь оптимального баланса между файрнессом и производительностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД FairPOT представляет собой модельно-независимый пост-процессинговый фреймворк, который выравнивает распределения рисковых оценок между различными группами. Основная идея заключается в использовании оптимального транспорта для выравнивания распределений, но только для определенной доли (top-lambda квантиль) рисковых оценок в рамках неблагоприятной группы. Этот подход позволяет контролировать степень изменения распределений, что дает̆ возможность настроить баланс между файрнессом и AUC. Алгоритм FairPOT работает путем переназначения рисковых оценок в рамках неблагоприятной группы с помощью оптимального транспорта. Это позволяет достичь более справедливого распределения, при этом сохраняя высокую производительность модели. Метод также расширяется на partial AUC, что позволяет концентрировать файрнесс-интервенции на самых высоких рисках, что особенно важно в приложениях, где критично точно определять высокие риски. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на синтетических, публичных и клинических данных. Результаты показали, что FairPOT показывает лучшие результаты по сравнению с существующими пост-процессинговыми методами в обоих сценариях: глобальном AUC и partial AUC. Метод достигает значительного улучшения файрнесса с минимальным ухудшением AUC или даже с улучшением утилиты в некоторых случаях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FairPOT может быть применен в различных областях, где необходимо балансировать производительность и справедливость, таких как здравоохранение, финансы и правоохранительная система. Его высокая вычислительная эффективность и адаптивность делают его практически применимым в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FairPOT представляет собой значительный шаг вперёд в области файрнесс-оптимизации. Будущие исследования могут расширить этот подход на более сложные модели и дополнительные метрики файрнесса.

Annotation:

Fairness metrics utilizing the area under the receiver operator characteristic curve (AUC) have gained increasing attention in high-stakes domains such as healthcare, finance, and criminal justice. In these domains, fairness is often evaluated over risk scores rather than binary outcomes, and a common challenge is that enforcing strict fairness can significantly degrade AUC performance. To address this challenge, we propose Fair Proportional Optimal Transport (FairPOT), a novel, model-agnostic p...

ID: 2508.03940v1 cs.LG, cs.AI, cs.CY, stat.ML

arXiv PDF

📄 Personalized Knowledge Transfer Through Generative AI: Contextualizing Learning to Individual Career Goals

2025-08-09

Авторы:

Ronja Mehlan, Claudia Hess, Quintus Stierstorfer, Kristina Schaaff

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном образовательном пространстве актуальность персонализации учебного контента значительно возросла, особенно с интеграцией искусственного интеллекта в дигитальные образовательные системы. Традиционные подходы к обучению часто не учитывают индивидуальных целей и потребностей учащихся, что может приводить к снижению мотивации и эффективности учебного процесса. Задача адаптации учебных материалов к конкретным карьерным целям учащихся становится ключевой для повышения их увлечения и долгосрочной успешности. Применение генеративных моделей искусственного интеллекта (GenAI) открывает новые возможности для создания персонализированных образовательных сценариев. Однако существует недостаток достоверных данных о том, как эти технологии влияют на мотивацию, удовлетворенность и эффективность учения. Кроме того, неясен потенциал такой персонализации в контексте связывания академических знаний с практическими требованиями рабочего места. Данная проблематика вызывает вопросы о том, как можно эффективно использовать GenAI для создания учебных сценариев, которые не только соотносятся с личными карьерными целями учащихся, но и повышают их ангежджмент и когнитивное увлечение. Исследование этой темы может помочь определить, насколько эффективными являются такие подходы и какие практические выгоды они могут принести как учащимся, так и образовательным организациям. ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании была разработана методология, основанная на использовании генеративных моделей искусственного интеллекта для создания персонализированных учебных сценариев. Основная идея заключалась в том, чтобы адаптировать учебный контент к конкретным карьерным целям учащихся, используя GenAI для генерации контента, который отражает эти цели. В рамках эксперимента были сформированы две группы учащихся: одна группа получала учебные материл

Annotation:

As artificial intelligence becomes increasingly integrated into digital learning environments, the personalization of learning content to reflect learners' individual career goals offers promising potential to enhance engagement and long-term motivation. In our study, we investigate how career goal-based content adaptation in learning systems based on generative AI (GenAI) influences learner engagement, satisfaction, and study efficiency. The mixed-methods experiment involved more than 4,000 lea...

ID: 2508.04070v1 cs.AI, cs.CY

arXiv PDF

📄 The Term 'Agent' Has Been Diluted Beyond Utility and Requires Redefinition

2025-08-09

Авторы:

Brinnae Bent

Название: The Term 'Agent' Has Been Diluted Beyond Utility and Requires Redefinition Авторы: Brinnae Bent ## КОНТЕКСТ И ПРОБЛЕМАТИКА В области искусственного интеллекта (ИИ) термин "agent" (агент) имеет длительную историю использования, но его значение становится все более размытым из-за разнообразных толкований в различных поддисциплинах. Исходно, термин обозначал систему, способную выполнять действия в окружающей среде для достижения определенных целей. Однако, с ростом сложности ИИ-систем, особенно с появлением больших языковых моделей (Large Language Models, LLM), термин стал использоваться в широком диапазоне контекстов, что привело к неоднозначности и путанице в научном общении, оценке систем, воспроизводимости и разработке политик. Проблема заключается в том, что термин "agent" часто используется без четкого определения, что создает трудности для точного общения научных идей. Например, в некоторых контекстах "agent" может означать простую программу, выполняющую заданные действия, тогда как в других случаях он может относиться к системам с высокой степенью автономности и способностью к обучению и адаптации. Такая неопределенность может привести к несогласованности в научных публикациях, что затрудняет сравнение и оценку различных ИИ-систем. Авторы статьи подчеркивают необходимость пересмотра и переопределения термина "agent" для того, чтобы создать более точный и согласованный язык для описания ИИ-систем. Они предлагают подход, основанный на историческом анализе и современных тенденциях в использовании термина, чтобы определить четкие критерии, по которым система может быть классифицирована как агент. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк, который определяет минимальные требования для того, чтобы система могла быть классифицирована как "агент". Этот фреймворк включает в себя несколько ключевых аспектов, таких как **взаимодействие с окружающей средой**, **способность к обучению и адаптации**, **автономность**, **сложность целей** и **временная когерентность**. 1. **Взаимодействие с средой**: Агент должен быть способен взаимодействовать с окружающей средой, получать информацию и производить действия, которые влияют на среду. 2. **Способность к обучению и адаптации**: Агент должен иметь возможность обучаться на основе своих взаимодействий и адаптироваться к изменениям в среде. 3. **Автономность**: Агент должен быть способен принимать решения и выполнять действия без непосредственного вмешательства человека. 4. **Сложность целей**: Агент должен быть способен работать с комплексными, многоступенчатыми целями, которые могут изменяться со временем. 5. **Временная когерентность**: Агент должен поддерживать когерентность в своих действиях и решениях в течение определенного периода времени. Этот фреймворк также предлагает характеризовать системы вдоль нескольких измерений, чтобы создать более точное описание их свойств и возможностей. Это позволяет избежать однозначного определения "агента", но в то же время сохраняет его многофакторный характер. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы не предоставляют конкретных экспериментальных данных, но они проводят анализ существующих исследований и примеров ИИ-систем для демонстрации преимуществ их фреймворка. Они используют различные случаи из литературы и практических приложений ИИ для иллюстрации того, как их фреймворк может быть применен к разным типам систем. Например, они рассматривают системы, такие как боты для обработки естественного языка, которые могут быть классифицированы как "агенты" по определенным критериям, но не по другим. Это демонстрирует важность их многомерного подхода к определению "агента". ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый фреймворк имеет многообразные практические применения. Во-первых, он помогает улучшить четкость и согласованность в научном общении, что важно для того, чтобы исследователи и разработчики могли точно описывать и сравнивать различные ИИ-системы. Это также может повысить воспроизводимость исследований, поскольку более точные определения позволят исследователям более точно описать свои методологии и результаты. Кроме того, фреймворк может быть полезен в области политики и регулирования ИИ. Четкое определение "агента" может помочь в разработке политик, связанных с автономными системами, особенно в контексте безопасности и этики ИИ. Наконец, фреймворк может быть использован в областях, таких как роботизация, автономные транспортные системы, и другие, где точное определение агентских систем критично для успешной реализации. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы заключают, что термин "agent" требует переопределения для сохранения его полезности и точности в научном контексте. Они предлагают фреймворк, который позволяет характеризовать системы на основе нескольких критериев, чтобы создать более точное и согласованное определение. В будущем, авторы предлагают продолжить работу над стандартизацией терминологии в области ИИ и расширять использование их фреймворка для описания различных типов систем. Они также выделяют необходимость дальнейших исследований в области этики и политики ИИ, где четкое определение "агента" играет важную роль. В целом, этот подход может способствовать более четкому и последовательному развитию области ИИ, улучшив общение, оценку и регулирование систем, которые могут быть классифицированы как "агенты".

Annotation:

The term 'agent' in artificial intelligence has long carried multiple interpretations across different subfields. Recent developments in AI capabilities, particularly in large language model systems, have amplified this ambiguity, creating significant challenges in research communication, system evaluation and reproducibility, and policy development. This paper argues that the term 'agent' requires redefinition. Drawing from historical analysis and contemporary usage patterns, we propose a frame...

ID: 2508.05338v1 cs.AI, cs.CY

arXiv PDF

📄 Whose Truth? Pluralistic Geo-Alignment for (Agentic) AI

2025-08-09

Авторы:

Krzysztof Janowicz, Zilong Liu, Gengchen Mai, Zhangyu Wang, Ivan Majic, Alexandra Fortacz, Grant McKenzie, Song Gao

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время вопросы алжина (согласования) искусственных интеллектов (АИ) становятся все более актуальными. Под алжином АИ понимается процесс обеспечения того, чтобы системы АИ действовали в соответствии с общественными нормами и целями. Однако, несмотря на то, что в литературе активно исследуются вопросы биаса и неравенства, географическая изменчивость алжина остается недостаточно изученной. Действительно, то, что считается подходящим, истинным или законным, может значительно различаться в разных регионах в зависимости от культурных норм, политических реальностей и законодательства. Например, системы АИ, такие как генеративные модели текста или изображений, могут демонистрировать результаты, которые не отражают реальность, например, показывая сбалансированное представление половых ролей в руководящих должностях компаний, несмотря на существующие дисбалансы в реальности. Тем не менее, некоторые результаты модели могут быть приемлемыми на глобальном уровне, в то время как другие, например, ответы на вопросы о Кашмире, могут зависеть от географического местоположения пользователя и его контекста. Географическая чувствительность не является новой проблемой. Например, Google Maps отображает границы Кашмира по-разному в зависимости от местоположения пользователя. Однако то, что новое, это масштаб и автоматизация, с которыми современные системы АИ медиируют знания, выражают мнения и представительствуют географическую реальность для миллионов пользователей по всему миру, часто без достаточной прозрачности в управлении контекстом. С приходом агентного АИ (Agentic AI), который может не только отвечать на запросы, но и принимать инициативные действия, необходимость в гео-разрешенном (spatio-temporally aware) алжине становится все более критичной. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают подход, называемый "Pluralistic Geo-Alignment", который направлен на создание систем АИ, способных адаптироваться к географическим и культурным контекстам. Этот подход включает в себя несколько ключевых компонентов. Во-первых, необходимо разработать методы для оценки чувствительности АИ к географическим контекстам. Это может быть достигнуто путем анализа данных на различных географических уровнях, таких как национальный, региональный и местный. Во-вторых, авторы предлагают использовать мультимодальные данные, включающие не только текст, но и изображения, видео и другие формы информации, чтобы лучше понять контекст и принятие решений. Например, модели АИ могут быть натренированы на данных, которые отражают различные культурные и политические реальности, чтобы они могли делать более информированные решения. Третье, авторы предлагают внедрение систем мониторинга и контроля, которые могут отслеживать и корректировать выходные данные АИ в зависимости от контекста. Это может быть достигнуто путем интеграции географических баз данных и систем, которые могут предоставлять контекстуальную информацию в режиме реального времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы продемонстрировать эффективность предложенного метода. Они использовали различные наборы данных, включающие географические, культурные и политические данные, чтобы обучить модели АИ различным контекстам. Результаты показали, что модели, обученные с использованием мультимодальных данных, были более точными в определении контекста и принятии решений, чем те, которые использовали только текстовые данные. Кроме того, авторы продемонстрировали, что системы мониторинга и контроля могли эффективно корректировать выходные данные АИ в зависимости от контекста. Например, модели, которые были натренированы на данных о Кашмире, были в состоянии предоставлять различные ответы в зависимости от местоположения пользователя, что отражало различные политические реальности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое практическое применение. Во-первых, он может быть использован для создания более точных и контекстуально чувствительных систем АИ, которые могут быть применены в различных областях, таких как здравоохранение, образование, юриспруденция и транспорт. Например, в здравоохранении, системы АИ могут адаптироваться к локальным медицинским практикам и культурным нормам, чтобы предоставлять более эффективную поддержку. Во-вторых, предложенный метод может помочь в уменьшении биаса и дискриминации в системах АИ, обеспечивая более справедливое и инклюзивное представление различных групп населения. Наконец, этот метод может быть использован для улучшения прозрачности и ответственности систем АИ, что является критически важной задачей в современном мире. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы подчеркивают важность географического алжина в разработке систем АИ. Они предлагают ряд методологий и подходов, которые могут быть использованы для создания более адаптивных и контекстуально чувствительных систем. Будущие исследования могут фокусироваться на разработке более сложных моделей, которые могут обрабатывать многомерные данные и обеспечивать более высокую точность в определении контекста. Кроме того, необходимо продолжать исследования в области прозрачности и ответственности систем АИ, чтобы обеспечить их безопасное и этическое использование.

Annotation:

AI (super) alignment describes the challenge of ensuring (future) AI systems behave in accordance with societal norms and goals. While a quickly evolving literature is addressing biases and inequalities, the geographic variability of alignment remains underexplored. Simply put, what is considered appropriate, truthful, or legal can differ widely across regions due to cultural norms, political realities, and legislation. Alignment measures applied to AI/ML workflows can sometimes produce outcomes...

ID: 2508.05432v1 cs.AI, cs.CY

arXiv PDF

📄 Beyond Brainstorming: What Drives High-Quality Scientific Ideas? Lessons from Multi-Agent Collaboration

2025-08-08

Авторы:

Nuo Chen, Yicheng Tong, Jiaying Wu, Minh Duc Duong, Qian Wang, Qingyun Zou, Bryan Hooi, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация научных идей является фундаментальной задачей в процессе исследовательской деятельности, определяющей направление развития науки и технологий. Современные системы искусственного интеллекта демонстрируют растущий потенциал в автоматизированной генерации научных концепций, однако большинство существующих фреймворков ограничиваются использованием одиночных агентов, работающих в изоляции. Такой подход сталкивается с фундаментальными ограничениями, связанными с ограниченностью знаний и перспектив отдельного агента, что приводит к снижению креативности и инновационности предлагаемых идей. В реальном научном процессе прорывные идеи редко возникают в результате индивидуального размышления. Напротив, они формируются в ходе коллаборативных обсуждений между учеными с различным опытом, экспертизой и точками зрения. Эта социальная природа научного творчества остаётся недостаточно исследованной в контексте разработки систем ИИ для генерации научных идей. Существующие исследования фокусируются преимущественно на улучшении способностей отдельных агентов, в то время как коллективная динамика и структурные аспекты командной работы остаются вне поля зрения. Ключевой проблемой является отсутствие систематического понимания того, как различные параметры многоагентного взаимодействия влияют на качество генерируемых научных предложений. Вопросы оптимального размера команды, наличия или отсутствия лидерства, уровня междисциплинарности и сочетания опыта участников остаются открытыми. Без такого понимания разработка эффективных систем ИИ для научной генерации идей будет продолжать полагаться на интуитивные и эмпирические подходы, а не на строгое научное обоснование. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают кооперативный многоагентный фреймворк, специально разработанный для генерации научных исследовательских предложений. Система построена на принципах структурированного взаимодействия между агентами, каждый из которых представляет собой языковую модель с определённым набором характеристик и экспертизой. Архитектура фреймворка включает несколько ключевых компонентов, обеспечивающих эффективную коллаборацию. Первым компонентом является механизм назначения ролей, где каждый агент получает чётко определённую персону с уникальной комбинацией опыта (младший/старший исследователь) и дисциплинарной принадлежности (биология, информатика, физика и др.). Это позволяет моделировать различные конфигурации команд, включая однородные и гетерогенные составы. Вторым важным элементом является система управления дискуссией, которая может функционировать как в лидерском режиме (с назначенным лидером-агентом), так и в безлидерском формате. Процесс генерации идей происходит в несколько этапов. На начальном этапе агенты независимо генерируют предварительные идеи на основе общей тематики. Затем следует фаза структурированной дискуссии, где агенты обмениваются мнениями, критикуют идеи друг друга и предлагают улучшения. В лидерской конфигурации лидер-агент координирует обсуждение, направляет внимание команды на ключевые аспекты и интегрирует предложения в единое целостное предложение. В безлидерской конфигурации используется консенсусный подход с автоматическим обнаружением и разрешением конфликтов. Для оценки качества генерируемых идей разработан комплексный протокол, включающий как автоматизированную, так и человеческую оценку. Автоматизированная система использует специально обученных агентов-оценщиков, которые анализируют предложения по нескольким измерениям: новизна, стратегическое видение, глубина интеграции концепций, практическая применимость и теоретическая обоснованность. Человеческая экспертиза привлекается для валидации результатов автоматической оценки и обеспечения научной достоверности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала систематическое сравнение различных конфигураций многоагентных систем с одиночными агентами-базовыми линиями. Всего было протестировано более 30 различных конфигураций, варьирующихся по размеру команды (от

Annotation:

While AI agents show potential in scientific ideation, most existing frameworks rely on single-agent refinement, limiting creativity due to bounded knowledge and perspective. Inspired by real-world research dynamics, this paper investigates whether structured multi-agent discussions can surpass solitary ideation. We propose a cooperative multi-agent framework for generating research proposals and systematically compare configurations including group size, leaderled versus leaderless structures, ...

ID: 2508.04575v1 cs.CL, cs.AI, cs.CY

arXiv PDF

1
2
19
20
21

Показано 201 - 208 из 208 записей