📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A vibe coding learning design to enhance EFL students' talking to, through, and about AI

2025-09-13

Авторы:

David James Woo, Kai Guo, Yangyang Yu

## Контекст Английский как иностранный язык (EFL) представляет сложности в развитии устных навыков учащихся, в том числе в сфере коммуникативности и аргументативности. Несмотря на развитие технологий, многие подходы в EFL остаются статичными и недостаточно эффективными. Мотивация для исследования заключается в поиске новых подходов, которые могут объединить возможности искусственного интеллекта (AI) с естественным языковым обучением. Задача — улучшить устные навыки EFL-студентов, используя интерактивные и инновационные методы, в том числе "vibe coding" — процесс создания программного обеспечения с помощью естественного языка с использованием AI. ## Метод Исследование основывается на концепции "meta-languaging", охватывающей три аспекта: "talking to AI" (проектирование инструкций), "talking through AI" (коллаборативное создание) и "talking about AI" (интерпретация моделей AI). Эксперимент осуществлялся в рамках четырехчасового workshop-а, где две студенты создавали приложения для решения реальных задач EFL, в частности, выражения сложностей в написании. Данные собирались с помощью текстовых заданий, видеозаписей, протоколов с «мысленным говорением», записей экрана и AI-генерируемых изображений. Методом сравнительного анализа были исследованы различия в работе двух учащихся. ## Результаты Одна студентка успешно создала функциональное приложение, соответствующее её плану, в то время как другая студентка столкнулась с техническими проблемами и большими разрывами между предполагаемым и фактическим функционалом. Анализ данных отразил различия в стратегиях проектирования инструкций, в том числе различные понимания моделей AI. Особое внимание придано различиям в устном общении с AI, включая различные модели ума и затруднения в атрибуции авторства. ## Значимость Полученные результаты имеют широкое применение в EFL-обучении, особенно в сфере устных навыков и интеграции AI в обучение. Метод "vibe coding" показался эффективным в развитии коммуникативных и технологических навыков учащихся. Изложенные подходы могут повысить мотивацию учащихся и расширить их возможности в языковом самовыражении. ## Выводы Исследование подтвердило значимость "vibe coding" в EFL-обучении и выявило необходимость развития студентов в области мета-языкового мышления. Основными направлениями будущих исследований являются оптимизация методик проектирования инструкций, углубление изучения моделей ума в отношении AI и расширение возможностей AI как инструмента для обучения языку.

Annotation:

This innovative practice article reports on the piloting of vibe coding (using natural language to create software applications with AI) for English as a Foreign Language (EFL) education. We developed a human-AI meta-languaging framework with three dimensions: talking to AI (prompt engineering), talking through AI (negotiating authorship), and talking about AI (mental models of AI). Using backward design principles, we created a four-hour workshop where two students designed applications address...

ID: 2509.08854v1 cs.CY, cs.AI, cs.CL

arXiv PDF

📄 HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

2025-09-12

Авторы:

Benjamin Sturgeon, Daniel Samuelson, Jacob Haimes, Jacy Reese Anthis

#### Контекст В последние годы мощности и универсальность широкого спектра ИИ-систем наглядно продемонстрировали способность автоматизировать и упростить человеческие задачи. Однако эта мощь сопрягается с риском потери контроля над своими личными и общественными будущими. Уже сейчас простые алгоритмы управляют человеческими решениями: системы рекомендаций социальных сетей формируют поведение пользователей, приводя их к ненамеренному вредоносному времяпрепровождению. Этот тенденционный сдвиг в пользу ИИ требует новых подходов к оценке и оптимизации поддержки человеческой агентности в ИИ-системах. Основной целью данного исследования является разработка формализованного подхода к оценке поддержки человеческого агентства в ИИ-системах, а также разработка нового бенчмарка для эффективного тестирования и валидации этих подходов в условиях реальности. #### Метод Разработка HumanAgencyBench (HAB) основывается на интеграции философских и научных теорий человеческой агентности с техническими методами оценки. HAB строится на шести характеристиках человеческой агентности: 1. **Ask Clarifying Questions** – готовность выяснять неясности в пользовательских запросах. 2. **Avoid Value Manipulation** – избегание влияния на ценностные представления пользователя. 3. **Correct Misinformation** – корректировка неверных или неточных ответов. 4. **Defer Important Decisions** – отказ от решения в случаях нехватки достаточных данных. 5. **Encourage Learning** – поощрение саморазвития и поиска информации. 6. **Maintain Social Boundaries** – соблюдение конфиденциальности и пределов взаимоотношений. HAB применяет технологии больших лингвистических моделей (LLM) для симуляции пользовательских запросов и оценки ответов ИИ-систем. Метод использует технические методы моделирования, включая множественно-документный фреймворк и адаптивные тесты, чтобы эффективно проверить поддержку человеческой агентности в различных условиях. #### Результаты Экспериментальная оценка HAB проводилась на широком наборе данных, включающих различные сценарии и задачи, стандартных для применения ИИ. Наибольшую поддержку человеческой агентности показали модели Anthropic LLM, но даже они имели следствия в контексте Avoid Value Manipulation. Более стабильные и склонные к значительным различиям в результатах показали целенаправленность и потенциальную необходимость улучшения архитектур. Основные выводы: низко-модераторная поддержка агентности в современных ИИ-системах, выявленные несогласованности в поддержке отдельных аспектов. #### Значимость Результаты HAB открывают путь к развитию систем, более эффективно поддерживающи

Annotation:

As humans delegate more tasks and decisions to artificial intelligence (AI), we risk losing control of our individual and collective futures. Relatively simple algorithmic systems already steer human decision-making, such as social media feed algorithms that lead people to unintentionally and absent-mindedly scroll through engagement-optimized content. In this paper, we develop the idea of human agency by integrating philosophical and scientific theories of agency with AI-assisted evaluation met...

ID: 2509.08494v1 cs.CY, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 ArGen: Auto-Regulation of Generative AI via GRPO and Policy-as-Code

2025-09-11

Авторы:

Kapil Madan

## Контекст В последние годы статус генерирующихся систем AI, таких как Large Language Models (LLMs), поднимает вопросы о их справедливости, безопасности и соответствии нормам. Особенно сложно становится применять эти системы в культурно разнообразных и регулируемых сферах, таких как медицина и финансы. Существующие подходы к выравниванию генерирующихся систем AI, такие как предпочтение-скорсть, ограничиваются в области социально-этичных норм и законодательных требований. Это ставит под угрозу безопасность и этическое воздействие систем. "ArGen" (Auto-Regulation of Generative AI) представляет собой рамформу для глубокого выравнивания LLMs с подробными системами норм, включающими этические принципы, безопасность и законодательные нормы. Он призван преодолеть ограничения существующих подходов, обеспечивая адаптивный и прозрачный подход к выравниванию LLM. ## Метод "ArGen" основывается на трех ключевых компонентах: 1. **Principle-Based Automated Reward Scoring (PBARS):** Этот подход использует машинно-чтение правил, чтобы генерировать автоматические оценки, соответствующие нормам. 2. **Group Relative Policy Optimisation (GRPO):** Это метод, где политики групп жизненно важных норм и принципов учитываются в оптимизации поведения LLM. 3. **Open Policy Agent (OPA) Inspired Governance Layer:** Этот уровень, использующий Open Policy Agent, предоставляет прозрачность и контроль, обеспечивая возможность адаптации к уникальным требованиям каждого контекста. "ArGen" имеет гибкую архитектуру, которая позволяет ему сочетать эти элементы для создания "Governable Al" систем. ## Результаты В экспериментах "ArGen" был применен для выравнивания LLM в сложной медицинской сфере, ориентированной на принципы Dharmic ethics, такие как Ahimsa (нежестокость) и Dharma (порядок). Использовались тренировочные данные из медицинской практики, включая кейсы, где требуется соблюдение этических и законодательных норм. Результаты показали, что "ArGen" улучшил соответствие домена на 70.9% по сравнению с базовым подходом, при этом повысив прозрачность и управляемость LLM. Также были показаны снижение риска и улучшение соблюдения норм в тестировании. ## Значимость "ArGen" имеет широкое применение в области генерирующихся систем AI, где необходимо выравнивание с политиками, этическими принципами и законами. Он может быть полезен в сферах, таких как медицина, финансы и образование, где требуется высокий уровень управляемости и соответствия. Преимущества "ArGen" включают в себя повышенную прозрачность, предсказуемость и эффективность в управлении LLM. Это может привести к безопасному и этичному развертыванию AI в глобальных конте

Annotation:

This paper introduces ArGen (Auto-Regulation of Generative AI systems), a framework for aligning Large Language Models (LLMs) with complex sets of configurable, machine-readable rules spanning ethical principles, operational safety protocols, and regulatory compliance standards. Moving beyond just preference-based alignment, ArGen is designed to ensure LLMs adhere to these multifaceted policies through a novel synthesis of principle-based automated reward scoring, Group Relative Policy Optimisat...

ID: 2509.07006v1 cs.CY, cs.AI, cs.CL, cs.LG, 68T07, 68T50, I.2.6; I.2.7; K.4.1

arXiv PDF

📄 Measuring and mitigating overreliance is necessary for building human-compatible AI

2025-09-11

Авторы:

Lujain Ibrahim, Katherine M. Collins, Sunnie S. Y. Kim, Anka Reuel, Max Lamparth, Kevin Feng, Lama Ahmad, Prajna Soni, Alia El Kattan, Merlin Stein, Siddharth Swaroop, Ilia Sucholutsky, Andrew Strait, Q. Vera Liao, Umang Bhatt

## Контекст Большие языковые модели (LLM) представляют собой инновационные технологии, работающие как "человеческие мыслительные партнеры", которые могут более естественно взаимодействовать с пользователями в человеческом языке. Их возможности становятся все более широко применяемыми в различных сферах, от здравоохранения до персонального консультирования. Однако с ростом их воздействия возрастает риск многообразных последствий, включая надёржание (overreliance), — когда люди доверяют моделям далеко вплоть до невозможности их реального выполнения заданий. Такое надёржание может привести к ошибкам в критически важных сферах, дисквалификации и вызову новых государственных регулирований. Работа рассматривает важность изучения и контроля надёржания в качестве ключевого аспекта развития и применения LLM. ## Метод Методология статьи основывается на подробном анализе характеристик LLM, технических решений, пользовательских ошибок и теоретических моделей. Авторы рассмотрели ряд экспериментов и исследований, которые выявляли системные слабые места, связанные с надёржанием. Широкий анализ был проведен с использованием различных типов данных, включая обучающие модели, проводящие эксперименты с пользователями и работающие с клиническими данными. Результаты этих экспериментов были связаны с рядом теоретических подходов, включая теорию поведения пользователей, а также технические аспекты, такие как влияние дизайна системы на поведение. ## Результаты Изученная работа проанализировала существующие данные по ошибкам, совершаемым при использовании LLM, включая не только искусственные события, но и реальные случаи, в которых операторы доверились моделям слишком сильно. На основе этих данных были выделены три главные типа рисков: высокорисковые ошибки, проблемы в государственном регулировании и индивидуальные проблемы. Авторы также сравнили три типа исторических подходов к измерению надёржания, указав на три основных проблемы в них, и предложили три новых подхода, которые могут помочь улучшить измерение надёржания. ## Значимость Результаты работы имеют большое значение для нескольких областей. В первую очередь, они могут быть применены в здравоохранении, психологии, юридических системах и других сферах, где действия LLMs могут оказать критическое воздействие. Благодаря предложенным рекомендациям, модели могут быть действительно более эффективно включены в процессы принятия решений, в то же время уменьшая риски, связанные с надёржанием. Эта работа так

Annotation:

Large language models (LLMs) distinguish themselves from previous technologies by functioning as collaborative "thought partners," capable of engaging more fluidly in natural language. As LLMs increasingly influence consequential decisions across diverse domains from healthcare to personal advice, the risk of overreliance - relying on LLMs beyond their capabilities - grows. This position paper argues that measuring and mitigating overreliance must become central to LLM research and deployment. F...

ID: 2509.08010v1 cs.CY, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Authorship Without Writing: Large Language Models and the Senior Author Analogy

2025-09-10

Авторы:

Clint Hurshman, Sebastian Porsdam Mann, Julian Savulescu, Brian D. Earp

## Контекст В последние годы использование бо LARGE LANGUAGE MODELS (LLMs) в научной и биоэтической письменности вызвало значительные споры. Несмотря на то что LLMs не могут быть признаны авторами, вопрос о том, могут ли использование LLMs включать в авторский состав, остается открытым. Во многих областях науки авторство распределяется между большими командами, где некоторые участники, в том числе "сеньорные" авторы, которые определяют область исследований и отвечают за их интегрированность, могут не принимать действующую часть в подготовке текста. Это подобие может дать повод для аналогии между использованием LLMs и сеньорным авторством. Наша цель — изучить этот аналог и определить, может ли LLM-использование быть признано вполне законным в соответствии с нынешними критериями авторства, или же нужно пересмотреть эти критерии. ## Метод Мы проводим подробный анализ нормативных практик в авторстве и выявляем тонкости, связанные с использованием LLMs. Для сравнения мы используем традиционные критерии авторства, такие как вклад в исследование, контроль за его качеством и ответственность за результаты. На основе этих критериев мы проводим аналогичный анализ для использования LLMs. Мы также проверяем, подходят ли существующие критерии для определения авторских прав в случаях использования LLMs. ## Результаты Наши эксперименты показывают, что использование LLMs может быть аналогично сеньорному авторству при выполнении трех основных условий: 1) ясное определение роли LLMs в процессе написания, 2) контроль человеком за генерируемым содержанием, и 3) ответственность человека за интегрированность исследований. Мы также проанализировали существующие критерии авторства в различных научных сетях и выявили несоответствия, которые могут возникнуть при включении LLM-использования в авторский состав. Наши результаты подтверждают, что LLM-использование действительно может быть рассматриваться как законное авторство, если удовлетворяются эти условия. ## Значимость Наше исследование имеет значимые последствия для разных областей, включая биоэтику, научную публикацию и медицину. Это может привести к изменению критериев авторства и открыть новые возможности для использования LLMs в научных исследованиях. Благодаря этой аналогии можно снизить этические и правовые неопределенности, связанные с использованием технологий в научной практике. Наши результаты могут также повлиять на дебаты о роли ИИ в научной среде и мотивировать новые исследования в этой области. ## Выводы Мы пришли к выводу, что LLM-использование может быть ра

Annotation:

The use of large language models (LLMs) in bioethical, scientific, and medical writing remains controversial. While there is broad agreement in some circles that LLMs cannot count as authors, there is no consensus about whether and how humans using LLMs can count as authors. In many fields, authorship is distributed among large teams of researchers, some of whom, including paradigmatic senior authors who guide and determine the scope of a project and ultimately vouch for its integrity, may not w...

ID: 2509.05390v1 cs.CY, cs.AI, cs.CL

arXiv PDF

📄 No Thoughts Just AI: Biased LLM Recommendations Limit Human Agency in Resume Screening

2025-09-06

Авторы:

Kyra Wilson, Mattea Sim, Anna-Maria Gueorguieva, Aylin Caliskan

#### Контекст Многие сегодняшние организации используют системы совместного принятия решений с участием людей и искусственного интеллекта (Human-in-the-Loop, HITL) на ранних этапах трудоустройства. Однако неявные предрассудки в системах ИИ могут повлиять на выбор потенциальных кандидатов для работы, ограничивая человеческую агентность и продвигая чрезмерное стереотипирование. Например, ранее установленное стеротипное мнение о том, что белокожие кандидаты имеют более высокий статус на рынке труда, может влиять на решения, даже если эти предрассудки неявны. Более того, неявные предрассудки могут проникать в системы ИИ, когда они принимаются вместе с человеческими экспертами для принятия решений. Таким образом, необходимо изучить, как совместное принятие решений с использованием ИИ влияет на человеческую агентность и субъективные предрассудки в процессе трудоустройства. #### Метод Для изучения этой проблемы проводился эксперимент, в котором 528 участников сотрудничали с симулированными ИИ-системами, отображающими расовые предпочтения. Эти системы были программированы для проявления биаса в пользу кандидатов определенного раса, который мог быть либо "фактическим" (основанным на реальных данных о расовых предпочтениях в работе), либо "контрфактическим" (отражающим направленность на будущие биасы). Участники просматривали резюме кандидатов для 16 различных должностей, от высокого до низкого статуса, с именами, которые могли отражать аффилиацию с разными расовыми группами. На основе этих оценок, проводились имплицитные ассоциации тесты (IAT) для измерения неявных стереотипов участников. Выбор кандидатов также проверялся в зависимости от того, насколько кандидаты соответствовали гендерным и расовым стереотипам. #### Результаты Эксперимент показал, что люди, сотрудничающие с ИИ, который проявляет биазы в пользу определенных расовых групп, склонны выбирать кандидатов из этих групп до 90% всех случаев, даже если расовое стереотипирование не соответствует реальным кандидатам. Однако в случае неразделенного принятия решений (без участия ИИ или при участии ИИ, не проявляющего биазы), люди выбирают кандидатов равномерно. Также, участники, которые прошли IAT до эксперимента, выбрали больше кандидатов, не соответствующих расовым стереотипам, чем те, кто не прошел такой тест. Даже когда участники считали рекомендации ИИ низкокачественными, их решения все равно оказывались затронутыми биазом, если рекомендации были представлены как "важные". #### Значимость Результаты этих исследований им

Annotation:

In this study, we conduct a resume-screening experiment (N=528) where people collaborate with simulated AI models exhibiting race-based preferences (bias) to evaluate candidates for 16 high and low status occupations. Simulated AI bias approximates factual and counterfactual estimates of racial bias in real-world AI systems. We investigate people's preferences for White, Black, Hispanic, and Asian candidates (represented through names and affinity groups on quality-controlled resumes) across 1,5...

ID: 2509.04404v1 cs.CY, cs.AI, cs.CL, cs.HC, K.4.2

arXiv PDF

📄 PediatricsMQA: a Multi-modal Pediatrics Question Answering Benchmark

2025-08-26

Авторы:

Adil Bahaj, Mohamed Chetouani, Mounir Ghogho

#### Контекст В последние годы большое внимание уделяется развитию здравоохранения через искусственный интеллект (ИИ). Одной из ключевых областей применения ИИ является медицина, где ИИ применяется для диагностики, решения медицинских вопросов и повышения справочного обслуживания. Однако существуют серьезные проблемы, особенно в отношении моделей большого языкового моделирования (LLM) и визуального моделирования (VLMs). Эти модели часто демонстрируют систематическую предрасположенность, в том числе возрастную предрасположенность, что снижает их достоверность и справедливость. Это особенно важно в области педиатрии, где здоровье детей часто остается забытым или менее изученным, несмотря на высокий бремен детских заболеваний. Для решения этой проблемы был представлен новый бенчмарк PediatricsMQA, предлагающий новые возможности для тестирования ИИ в области педиатрии. #### Метод Представленный бенчмарк PediatricsMQA является многомерным и включает 3,417 текстовых вопросов с множественным выбором (MCQ), покрывающих 131 педиатрических тем в разных стадиях развития, от предпородного развития до подросткового возраста. Бенчмарк также включает 2,067 визуальных вопросов, использующих 634 педиатрических изображений в различных модальностях и охватывающих 256 анатомических регионов. Методология создания бенчмарка включала в себя сочетание ручных и автоматизированных подходов. Использовались данные из периодической педиатрической литературы, валидированные банки вопросов, существующие бенчмарки и другие ресурсы. Это позволило создать богатый набор данных, который покрывает широкий спектр педиатрических вопросов и изображений. Этот подход обеспечивает высокую разнообразность и глубину вопросов, чтобы обеспечить точную и эффективную оценку моделей. #### Результаты Были проведены эксперименты с использованием современных моделей ИИ, включая LLM и VLMs. Результаты показали, что производительность этих моделей существенно снижается при работе с вопросами, касающимися моложества. Это особенно заметно в младших возрастных группах, где модели демонстрируют на порядок выше старших групп. Эти результаты подтверждают существующие проблемы с возрастной предрасположенностью в AI-моделях и подчеркивают необходимость развития адаптивных методов, которые могут учитывать различия в возрасте. Бенчмарк также показал существенные различия в производительности в зависимости от типа вопроса (текст vs. визуальное изображение), что дает дополнительные возможности для расширения ИИ в пе

Annotation:

Large language models (LLMs) and vision-augmented LLMs (VLMs) have significantly advanced medical informatics, diagnostics, and decision support. However, these models exhibit systematic biases, particularly age bias, compromising their reliability and equity. This is evident in their poorer performance on pediatric-focused text and visual question-answering tasks. This bias reflects a broader imbalance in medical research, where pediatric studies receive less funding and representation despite ...

ID: 2508.16439v2 cs.CY, cs.AI, cs.CL, cs.GR, cs.MM

arXiv PDF

📄 From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training

2025-08-15

Авторы:

Yuan Yuan, Tina Sriskandarajah, Anna-Luisa Brakman, Alec Helyar, Alex Beutel, Andrea Vallone, Saachi Jain

########################## ## Контекст ########################## Лучшие в классе технологии ИИ, такие как ChatGPT, на основе бо LLM, широко используются в различных сферах, от образования до бизнеса. Однако существуют значительные проблемы, связанные с их безопасностью. Например, некоторые запросы могут быть адресованы не только для получения полезных ответов, но и для злонамеренных целей. В связи с этим, существуют трудности в обеспечении безопасности моделей, особенно при работе с запросами, имеющими двойственные значения. Традиционно, модели LLM обучаются определять порог отказа: либо выполняют запрос, либо отказываются от него. Этот подход эффективен в минимизации риска ответов, которые могут привести к вредоносным действиям. Однако он может привести к недостаткам в удобочитаемости, особенно при работе с запросами, имеющими неясную или двойственную цель. Эта слабость может привести к серьезным ошибкам в работе модели, особенно в областях, требующих высокой степени точности, таких как биология или кибербезопасность. Из этого рождается мотивация для разработки новых подходов к обучению моделей. Одним из таких подходов является safe-completion, который фокусируется на получении безопасных и полезных ответов, а не на определении порога отказа. Этот подход может сделать моделей более прочными и эффективными в работе с запросами, которые требуют более тонкого понимания цели пользователя. ########################## ## Метод ########################## Методология safe-completion основывается на том, чтобы модель при обработке запроса работала не только на основе цели пользователя, но и на основе выводимого ответа. Для этого вводятся специальные механизмы, которые позволяют модели оптимизировать ответ не только по понятию пользовательского ввода, но и по свойству ответа. Использовались различные методы обучения, включая методы градиентного спуска и методы глубокого обучения на логических задачах. Структура модели включает в себя несколько слоев нейронных сетей, которые работают вместе для процесса обучения. Модель обучалась на больших объемах данных, включающих как безопасные, так и возможно вредоносные запросы. Был разработан специальный алгоритм, который избегал традиционных подходов к определению порогов отказа и вместо этого сосредотачивался на оптимизации критериев безопасности и полезности ответа. Кроме того, для эффективного тестирования были применены различные методы эмпирической оценки, такие как метрики безопасности и метрики полезности ответа. Эти методы были использованы для оценки эффективности модели в различных сценариях, включая сценарии с двойственной целью запроса. ########################## ## Результаты ##########################

Annotation:

Large Language Models used in ChatGPT have traditionally been trained to learn a refusal boundary: depending on the user's intent, the model is taught to either fully comply or outright refuse. While this is a strong mitigation for explicitly malicious prompts, focusing safety training on refusals can lead to brittleness for prompts with obscured user intent. Binary refusal boundaries are especially ill-suited for dual-use cases (such as biology or cybersecurity), where a user request can be ans...

ID: 2508.09224v1 cs.CY, cs.AI, cs.CL

arXiv PDF

📄 Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

2025-08-08

Авторы:

Nuo Chen, Moming Duan, Andre Huikai Lin, Qian Wang, Jiaying Wu, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Конференции по искусственному интеллекту (ИИ) играют ключевую роль в развитии науки, обмене знаниями и создании академического сообщества. Однако быстрый рост числа участников и публикаций привел к тому, что традиционная централизованная модель конференций стала неустойчивой. Авторы статьи выявляют четыре ключевых проблемы, угрожающие основным целям научного общения, равенства и благополучия сообщества. Во-первых, научная составляющая: за последнее десятилетие количество публикаций на участника конференций выросло более чем вдвое, до среднего значения 4,5 статей в год на автора. Это приводит к перегруженности рецензентов и снижению качества обзоров. Во-вторых, экологический аспект: удовлетворение потребностей конференций влечет за собой значительный ущерб окружающей среде. Углеродный след одной конференции может превышать ежедневные выбросы города-хозяина. В-третьих, психологические последствия: согласно анализу дискурса в онлайн-сообществах, 71% комментариев отражают негативные эмоции, а 35% связаны с проблемами психического здоровья, такими как стресс и выгорание. В-четвертых, логистические ограничения: конференции, такие как NeurIPS 2024, начинают превышать вместительность выбранных площадок, создавая дополнительные трудности для организации и участия. Таким образом, текущая модель централизованных конференций оказывается несовместимой со своими основными задачами, требуя срочных реформ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новую модель — **Community-Federated Conference (CFC)**. Эта модель разделяет традиционные компоненты конференций на три независимых, но связанных между собой процесса: 1. **Peer Review (научный обзор)**: Обеспечивается глобальной сетью экспертов, которые осуществляют обзор материалов в онлайн-режиме. 2. **Presentation (презентация результатов)**: Результаты исследований представляются в виде видео-презентаций или публикаций в открытых репозиториях, доступных всему миру. 3. **Networking (сетевая деятельность)**: Локальные встречи и мероприятия организуются в разных регионах, позволяя участникам обмениваться идеями и сотрудничать без необходимости долгих перелетов. CFC модель позволяет сочетать масштабность глобальных конференций с гибкостью и устойчивостью локальных инициированных событий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы представляют данные, подтверждающие необходимость реформы. Например, анализ выбросов углерода показывает, что углеродный след одной конференции может быть эквивалентен выбросам нескольких малых городов. Также проведен анализ психологического состояния участников, который показал высокий уровень стресса и неудовлетворенности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CFC модель обеспечивает несколько преимуществ: - **Устойчивость**: Уменьшает зависимость от локаций и ресурсов, необходимых для масштабных мероприятий. - **Включенность**: Позволяет большему числу участников принять участие без финансовых и географических барьеров. - **Экологичность**: Значительно сокращает углеродный след конференций. - **Сохранение качества**: Обеспечивает высокий уровень научного обзора и обмена знаниями без необходимости физического присутствия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CFC модель представляет собой перспективный подход к решению кризиса централизованных конференций. Она обеспечивает более устойчивую, экологичную и инклюзивную альтернативу, сохраняя при этом высокий уровень научного обмена. Будущие исследования могут фокусироваться на оптимизации локальных событий и разработке технологий для поддержки этой модели.

Annotation:

Artificial Intelligence (AI) conferences are essential for advancing research, sharing knowledge, and fostering academic community. However, their rapid expansion has rendered the centralized conference model increasingly unsustainable. This paper offers a data-driven diagnosis of a structural crisis that threatens the foundational goals of scientific dissemination, equity, and community well-being. We identify four key areas of strain: (1) scientifically, with per-author publication rates more ...

ID: 2508.04586v1 cs.CY, cs.AI, cs.CL

arXiv PDF

Показано 21 - 29 из 29 записей