📚 Саммари научных статей из arXiv

Найдено 50 результатов по запросу 'cs.CL, cs.AI, cs.CY' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AI-Powered Detection of Inappropriate Language in Medical School Curricula

2025-08-29

Авторы:

Chiman Salavati, Shannon Song, Scott A. Hale, Roberto E. Montenegro, Shiri Dori-Hacohen, Fabricio Murai

#### Контекст Медицинская образовательная программа является ключевым фактором в формировании клинических навыков и отношений с пациентами. Однако данные материалы часто содержат устаревший, исключающий или непациент-центрированный язык, который может сказаться на качестве обучения и результатах лечения. Особенно важно уточнить, что многие из этих материалов были разработаны в течение многих десятилетий, и, несмотря на их репутацию, они могут включать языковые выражения, теперь считающиеся неприемлемыми по современным медицинским стандартам. Таким образом, актуальность идентификации такого языка и его корректировки в медицинских учебниках имеет большую значимость. Несмотря на репутацию современных методик, этот процесс требует огромных вложений времени и ресурсов, что делает его невыполнимым в масштабе. #### Метод Для решения этой проблемы были рассмотрены несколько подходов. В качестве основы использовались методы машинного обучения и мелких языковых моделей (Small Language Models, SLM), а также больших языковых моделей (Large Language Models, LLM) с использованием in-context learning. Для SLM были рассмотрены следующие варианты: (1) общий классификатор IUL, (2) подкомпонентный бинарный классификатор, (3) многометричный классификатор и (4) двухступенчатая гибридная система, включающая общую IUL-детекцию и последующую многометричную классификацию. Для LLMs были рассмотрены варианты с применением различных структурных подходов к формированию запросов, включающих определения подкомпонентов и/или строки-образцы (shots). #### Результаты В ходе изучения было выявлено, что многометричный классификатор показал самый высокий результат в данных с аннотациями, но повышение эффективности менее специфичных классификаторов достигло 25%, когда добавлялись неотмеченные примеры как отрицательные примеры. Большинство вариантов LLM, включая LLama-3 8B и 70B, не смогли превзойти SLM в точности и качестве распознавания IUL. Даже при использовании структурированных подсказок (shots), LLM иногда предполагали неточные или различные оценки сравнительно с SLM. Однако гибридная модель, объединяющая общую IUL-детекцию с многометричным классификатором, показала наиболее эффективный подход. #### Значимость Этот подход может быть применен в различных сферах, где необходима идентификация и корректировка неприемлемого языка, в том числе в образовательной сфере и клинических исследованиях. Особенно важно, чтобы медицинские учебные программы отражали современные стандарты, так как это может повлиять на клиническое обучение, отно

Annotation:

The use of inappropriate language -- such as outdated, exclusionary, or non-patient-centered terms -- medical instructional materials can significantly influence clinical training, patient interactions, and health outcomes. Despite their reputability, many materials developed over past decades contain examples now considered inappropriate by current medical standards. Given the volume of curricular content, manually identifying instances of inappropriate use of language (IUL) and its subcategori...

ID: 2508.19883v1 cs.CL, cs.AI, cs.CY, I.2.1; I.2.7

arXiv PDF

📄 Leveraging Large Language Models for Accurate Sign Language Translation in Low-Resource Scenarios

2025-08-27

Авторы:

Luana Bulla, Gabriele Tuccio, Misael Mongiovì, Aldo Gangemi

## Контекст Необходимость создания доступных и инклюзивных технологий для людей с ограниченными возможностями является ключевой задачей в современной информатике. Одним из самых вызовов является перевод естественных языков на жестовые языки. Изучение этой задачи важно для улучшения общения между людьми со сверхурочной интонацией и лицами с ограниченным слухом. Однако существуют существенные проблемы в этой области. Ограниченность доступных данных, высокая специфичность, нестандартизированность и недостаточное представление языка на сигнализацию приводят к проблемам в развитии эффективных методов. Текущие методы часто не могут обеспечить широкое применение, поскольку они слишком ограничены в данных и не могут обеспечить обобщение в сложных и нестандартных ситуациях. Наша мотивация заключается в разработке метода, который может решать эти проблемы, увеличивая доступность и эффективность технологий для перевода естественных языков на жестовые языки. ## Метод Мы предлагаем метод Advanced Use of LLMs for Sign Language Translation (AulSign), который использует технологию бо LLM для обработки естественных языков и перевода на жесты. Метод называется Advanced Use of LLMs for Sign Language Translation (AulSign). Основная особенность метода заключается в том, что мы используем динамическую подсказку (dynamic prompting) и обучение контекстом (in-context learning), чтобы обеспечить эффективную обработку языка и перевод на жесты. Мы объединяем LLM с компактными описаниями жестов в естественной речи и обучаем модель, чтобы она связывала эти описания с соответствующими жестовыми данными. Таким образом, мы используем LLMs как платформу для перевода, хотя они в исходном виде не обладают пониманием жестовых языков. Это позволяет связать естественные языки с жестовыми языками в задачах, где доступны ограниченные данные. ## Результаты Мы проводили эксперименты на двух языках: английском и итальянском. Для оценки нашей модели мы использовали два выборки данных: SignBank+ и LaCAM CNR-ISTC. Эти данные являются стандартизированными и подходят для оценки нашего подхода в обработке жестовых языков. Мы сравнили нашу модель с текущими решениями, включая те, которые используют стандартные методы NMT, предлагаемые для перевода естественных языков. Результаты показали, что наш подход демонстрирует значительные преимущества в условиях с низким количеством данных. Мы получили лучшие результаты по оценке точности перевода и общей эффективности. Это значит, что AulSign может эффективно работать даже в ситуациях, когда другие модели не могут обеспечить достаточную точность. ## Значимость Мы считаем, что наш подход

Annotation:

Translating natural languages into sign languages is a highly complex and underexplored task. Despite growing interest in accessibility and inclusivity, the development of robust translation systems remains hindered by the limited availability of parallel corpora which align natural language with sign language data. Existing methods often struggle to generalize in these data-scarce environments, as the few datasets available are typically domain-specific, lack standardization, or fail to capture...

ID: 2508.18183v1 cs.CL, cs.AI, cs.CY, I.2; I.2.7

arXiv PDF

📄 ZPD-SCA: Unveiling the Blind Spots of LLMs in Assessing Students' Cognitive Abilities

2025-08-22

Авторы:

Wenhan Dong, Zhen Sun, Yuemeng Zhao, Zifan Peng, Jun Wu, Jingyi Zheng, Yule Liu, Xinlei He, Yu Wang, Ruiming Wang, Xinyi Huang, Lei Mo

## Контекст Хотя большие языковые модели (LLMs) продемонстрировали свою эффективность в области образовательных приложений, их способность точно оценивать уровень схожести между материалом для чтения и способностями учащихся остается недостаточно изученной. Эта проблема является критической, так как основательным принципом образовательного процесса является Зона Ближайшего Развития (ZPD), которая предполагает соответствие материалов для обучения развитию каждого учащегося. Однако существует ограниченное количество исследований, которые были бы посвящены рассмотрению способности LLMs оценивать сложность чтения в зависимости от возраста учащихся. Эта проблема особенно актуальна в контексте китайского языка, где естественные характеристики языка и культурные особенности могут существенно сказываться на развитии учащихся. В нашем исследовании мы предлагаем ZPD-SCA, подробный бенчмарк для оценки сложности текста для китайского языка, разработанный с учетом ZPD. ## Метод ZPD-SCA был создан с помощью 60 особых учителей высшей квалификации, которые ранжировали тексты в соответствии с развитием учащихся. Мы использовали данные, собранные из стандартных классов, чтобы создать базу для оценки. Для сравнения использованы модели LLMs, включая Qwen-max и GLM, которые прошли тестирование в задачах нулевого выстрела и с контекстными примерами. Мы точно измерили разницу в производительности с целью выявить уязвимости и преимущества моделей в области образовательных приложений. ## Результаты Наши результаты показали, что LLMs сталкиваются с ограничениями при нулевом выстреле, так как Qwen-max и GLM даже не достигли случайного угадывания. Однако при использовании контекстных примеров, производительность моделей значительно повысилась. Наиболее продвинутые модели LLMs достигли почти двойного увеличения точности по сравнению с нулевым выстрелом. Тем не менее, мы обнаружили систематические направленные ошибки, что указывает на трудности моделей в точной оценке сложности текста в соответствии с развитием учеников. Эти ошибки были особенно заметны при работе с разными жанрами текстов. ## Значимость ZPD-SCA может служить основополагающим инструментом для повышения точности оценки сложности чтения в LLMs. Мы видим возможность для развития более точных моделей, которые будут учитывать развитие учащихся в образовательных приложениях. Это может привести к созданию более эффективных инструментов для оценки и развития студентов, особенно в китайской области образования. ## Выводы Мы демонстрируем, что ZPD-SCA может стать ключевым инструментом для изучения и улучшения LLMs в области образовате

Annotation:

Large language models (LLMs) have demonstrated potential in educational applications, yet their capacity to accurately assess the cognitive alignment of reading materials with students' developmental stages remains insufficiently explored. This gap is particularly critical given the foundational educational principle of the Zone of Proximal Development (ZPD), which emphasizes the need to match learning resources with Students' Cognitive Abilities (SCA). Despite the importance of this alignment, ...

ID: 2508.14377v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection

2025-08-19

Авторы:

Axel Delaval, Shujian Yang, Haicheng Wang, Han Qiu, Jialiang Lu

## Контекст Детектирование токсичности в текстах является важной задачей, особенно в современных социальных сетях. Хотя большой прогресс осуществился в этой области на английском языке, задача детектирования токсичности на французском остается недоработанной, в основном из-за отсутствия культурно ориентированных и крупномасштабных данных. Таким образом, необходимо развитие методик и ресурсов для эффективного обнаружения токсичности на французском языке. ## Метод Для решения этой проблемы был создан новый публичный бенчмарк ToxiFrench, состоящий из 53 622 комментариев на французском языке. Данный бенчмарк был построен с помощью семи-автоматической аннотационной технологии, которая снизила участие человеческого аналитика до 10%, используя высокоточные модели языка. Для контроля качества использовалась ручная проверка. Была осуществлена оценка различных моделей, включая стандартные и большие модели, такие как GPT-40, и получены результаты, демонстрирующие значительные различия в производительности. Для улучшения моделей был предложен новый подход Chain-of-Thought (CoT) fine-tuning с динамическим взвешенным значением подсказок, который позволяет модели лучше понимать и развивать свой собственный логический подход к задаче. ## Результаты Эксперименты показали, что наиболее важным фактором повышения удобочитаемости является не только размер модели, но и ее способность к логическому изложению своих выводов. Доказано, что Small Language Models (SLMs) вы most promising models. Например, одна из SLM-моделей показала острое улучшение в F1-мерсе с 13% в сравнении с целью Fine-tuning. Кроме того, эта модель показала свою многоязычную способность, показывая свою эффективность на других языках, что демонстрирует перспективы для расширения этого подхода. ## Значимость Результаты демонстрируют, что этот подход может быть более эффективен для обнаружения токсичности сравнительно с большими моделями, и что он может быть использован в других языках. Эта методика может быть применена в сферах, где важно обеспечить безопасность и отсутствие насилия в онлайн-коммуникации. Это может привести к развитию безопасных интернет-платформ, предупреждению беспричинного насилия и улучшению общественного благосостояния. ## Выводы Полученные результаты показывают, что динамично взвешенный CoT fine-tuning может существенно повысить качество моделей для задач обнаружения токсичности, даже при использовании небольших моделей. Этот подход может быть применен для развития методик обнаружения токсичности на других языках, что может стать значительным шагом в обеспечении безопасности и правильности многояз

Annotation:

Detecting toxic content using language models is crucial yet challenging. While substantial progress has been made in English, toxicity detection in French remains underdeveloped, primarily due to the lack of culturally relevant, large-scale datasets. In this work, we introduce TOXIFRENCH, a new public benchmark of 53,622 French online comments, constructed via a semi-automated annotation pipeline that reduces manual labeling to only 10% through high-confidence LLM-based pre-annotation and human...

ID: 2508.11281v1 cs.CL, cs.AI, cs.CY, 68T50, I.2.7

arXiv PDF

📄 Retrieval-augmented reasoning with lean language models

2025-08-19

Авторы:

Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan

## Контекст В последние годы рост производительности широкомасштабных языковых моделей позволил достичь показателей, которые были раньше недостижимы. Однако эти модели требуют больших ресурсов и не подходят для приложений, требующих высокой производительности в ресурсозависимых или защищенных средах. Более того, существующие решения, основанные на внешних источниках, не могут обеспечить защиту конфиденциальных данных. Мы разработали модель, которая способна обрабатывать запросы в среде, ограниченной ресурсами, с помощью лёгкой модели языка и встроенной системы восстановления. Мы сосредоточились на задачах, требующих логического рассуждения, и предоставили возможность использовать модель в безопасной и эффективной форме. ## Метод Наша модель строится на основе тестируемого расширения модели (test-time scaling) и использует лёгкую модель языка с встроенной системой восстановления. Мы использовали тренированные модели Qwen-2.5-Instruct для понимания и синтезирования ответов. Для расширения функций модели, мы внедрили синтетическое генерирование запросов и алгоритмы фронтарных моделей (DeepSeek-R1). Мы использовали корпус, состоящий из страниц описания более 1000 заболеваний из Национального здравоохранения Великобритании (NHS). Мы разработали методы сжатия документов с помощью суммирования и применения индексации для увеличения производительности. Наша модель обрабатывает запросы, используя логический анализ, что позволяет нам создавать более точные и понятные ответы. ## Результаты Проведенные тесты показали, что наша модель демонстрирует высокую точность ответов и последовательность решений в сравнении с некоторыми более широкомасштабными моделями. Мы сравнили результаты с другими лёгкими моделями и достигли близкого уровня показателей, но с значительно более маленькой моделью. Модель показала способность работать в безопасной среде и обрабатывать достаточно сложные запросы с высокой точностью. ## Значимость Наша модель может применяться в различных сферах, где необходима высокая точность, быстродействие и защищённость. Например, в медицине, в области финансов и в промышленности, где защита конфиденциальных данных их важность. Мы показали, что модель может быть эффективно развернута в ограниченных ресурсах, не требуя дорогостоящих серверных решений. Это делает её перспективной для многих задач, где требуется быстрая реакция и высокая производительность. ## Выводы Мы разработали модель, которая значительно улучшает показатели производительности и точности ответов в среде, ограниченной ресурсами. Мы показали,

Annotation:

This technical report details a novel approach to combining reasoning and retrieval augmented generation (RAG) within a single, lean language model architecture. While existing RAG systems typically rely on large-scale models and external APIs, our work addresses the increasing demand for performant and privacy-preserving solutions deployable in resource-constrained or secure environments. Building on recent developments in test-time scaling and small-scale reasoning models, we develop a retriev...

ID: 2508.11386v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 PakBBQ: A Culturally Adapted Bias Benchmark for QA

2025-08-15

Авторы:

Abdullah Hashmat, Muhammad Arham Mirza, Agha Ali Raza

#### Контекст С появлением Large Language Models (LLMs) в различных приложениях, важно обеспечить их справедливость и нейтральность во взаимодействии с различными пользователями. Однако, большинство LLMs разрабатываются и проверяются на данных, сфокусированных на западных стереотипах и языках, оставляя малозначимость для низкоресурсных языков и региональных контекстов. Это нарушает справедливость и эффективность моделей в региональном контексте. Работа PakBBQ, расширенного Bias Benchmark for Question Answering (BBQ), нацелена на решение этой проблемы. Она содержит более 214 шаблонов, 17180 QA-пар, охватывающих 8 категорий в 2 языках (английский и урду). В состав включено 8 стейт-биасов, включающих важные западные и региональные характеристики, такие как возраст, инвалидность, внешность, пол, социально-экономический статус, религиозные убеждения, региональная принадлежность и формальность языка. #### Метод Методология PakBBQ основывается на разработке шаблонов и QA-пар, отражающих региональные и культурные особенности. Множество нейтральных и негативно формулированных вопросов подвергались оценке в разных контекстах. Использовались несколько LLMs для оценки подвижности моделей по стейт-биасу. Эксперименты проводились с разными типами вопросов, чтобы изучить влияние фрейминга и нейтрализации стейт-биаса. Это дало возможность сравнить модели под влиянием неявной и явной дисамбигуации, чтобы продемонстрировать их устойчивость к различным формам вопросов. #### Результаты Опытные исследования показали следующие результаты: (i) увеличение точности в 12% при использовании дисамбигуации, (ii) наличие сильной биас-нейтрализации в урду по сравнению с английским, (iii) влияние на фрейминг, при котором отрицательно формулированные вопросы уменьшают стейт-биас. Эти результаты подтверждают важность разработки конкретных бенчмаров для региональных языков. Они также показывают, что простой фрейминг вопросов может сильно повлиять на результаты, помогая уменьшить биас в низкоресурсных языках. #### Значимость PakBBQ предлагает свой вклад в область создания справедливых и нейтральных моделей для низкоресурсных языков. Он может использоваться для тестирования LLMs на уровне биаса в региональных контекстах, таких как язык урду. Это решение может иметь значительный потенциал в области создания безопасных, справедливых и эффективных моделей для местных пользователей. Это также открывает пути для развития технологий повышения качества языковых моделей на уровне регионального образования. #### Выводы Работа

Annotation:

With the widespread adoption of Large Language Models (LLMs) across various applications, it is empirical to ensure their fairness across all user communities. However, most LLMs are trained and evaluated on Western centric data, with little attention paid to low-resource languages and regional contexts. To address this gap, we introduce PakBBQ, a culturally and regionally adapted extension of the original Bias Benchmark for Question Answering (BBQ) dataset. PakBBQ comprises over 214 templates, ...

ID: 2508.10186v1 cs.CL, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization

2025-08-14

Авторы:

Yuzhuo Bai, Shitong Duan, Muhua Huang, Jing Yao, Zhenghao Liu, Peng Zhang, Tun Lu, Xiaoyuan Yi, Maosong Sun, Xing Xie

## Контекст Large Language Models (LLMs), обученные разнообразным текстовым корпусам, могут повторять человеческие характеристики и стили подсказками. Это возможность используется в широком кругу приложений, таких как персонализация LLMs и социальные симуляции. Однако существующие методы страдают от проблемы поверхностного подражания: LLMs могут только воспроизводить внешние стилистические особенности без поглубжей интеграции желаемых черт. Это приводит к нестабильности и несогласованности в имитации желаемых характеристик. Мотивируясь этим, мы предлагаем IROTE, метод для эффективного и надежного пробуждения человеческих характеристик в LLMs. ## Метод IROTE основывается на психологических теориях, связывающих характеристики с автопознанием и саморефлексией. Мы разработали механизм, который автоматически генерирует и оптимизирует текст саморефлексии внутри промптов. Этот текст описывает испытания и взгляды самого языкового модели, создавая яркую и конкретную картину желаемой черты. Оптимизация выполняется через информационно-теоретическую функцию максимизации, увеличивающую связь между характеристикой и текстом модели, при этом уменьшая шум и ненужную информацию. Этот процесс не требует оптимизации весов модели и дает стабильную и переносимую ролевую игру. ## Результаты Мы провести эксперименты на трех разных системах человеческих черт, проверяя целесообразность IROTE на различных задачах. Результаты показывают, что один текст саморефлексии, сгенерированный IROTE, позволяет LLMs оживить желаемую черту в различных сценариях. Наши результаты постоянно превосходят сильные текущие базы, демонстрируя более глубокие и устойчивые эффекты. Это доказывает значительное преимущество IROTE в области поддержки человеческих характеристик. ## Значимость Метод IROTE может применяться в сферах, где требуется поддержка человеческих черт, такие как социальные симуляции, персонализация технологий и даже создание имитационных систем. Он обеспечивает более стабильные и реалистичные характеристики, чем существующие методы. Будущие работы будут направлены на расширение метода на новые типы черт и улучшение его интеграции с другими технологиями. ## Выводы Итоги нашего исследования показывают, что IROTE является прорывом в области стабильного и переносимого пробуждения человеческих черт в LLMs. Наш метод позволяет получить более внутреннюю и консистентную имитацию человеческих характеристик, что открывает пути для

Annotation:

Trained on various human-authored corpora, Large Language Models (LLMs) have demonstrated a certain capability of reflecting specific human-like traits (e.g., personality or values) by prompting, benefiting applications like personalized LLMs and social simulations. However, existing methods suffer from the superficial elicitation problem: LLMs can only be steered to mimic shallow and unstable stylistic patterns, failing to embody the desired traits precisely and consistently across diverse task...

ID: 2508.08719v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas

2025-08-13

Авторы:

Junchen Ding, Penghao Jiang, Zihao Xu, Ziqi Ding, Yichen Zhu, Jiaojiao Jiang, Yuekang Li

## Контекст В последние годы значительное внимание уделяется исследованию возможностей и функциональных характеристик Бо LLM (большие языковые модели), включая их участие в принятии этически важных решений. Эти модели применяются в различных сферах, включая право, медицину и социальную сферу. Однако их возможности в моральном рассуждении и понимании значения человеческих ценностей до сих пор недостаточно изучены. Наличие моральных базисов в Бо LLM является важной задачей для того, чтобы обеспечить их безопасное и эффективное использование в решении проблем, возникающих в сложных ситуациях. Это исследование поднимает вопрос о том, насколько модели эффективно применяют моральные принципы в своих решениях, и как они могут строить свои ответы в зависимости от культурных и этических контекстов. ## Метод Для эту статью была проведена комплексная эмпирическая оценка 14 лидирующих моделей Бо LLM, включая модели с признаками морального рассуждения и общего назначения. Эти модели были протестированы на 27 ситуациях, основанных на такой моральной проблемой, как "trolley problem", которые были формально поставлены в рамках 10 различных моральных философий, включая утилитаризм, деонтологию и альтруизм. Использовалась факторическая техника подсказки (prompting), чтобы вызвать 3780 бинарных решений, а также естественные языковые обоснования. Это стало возможным благодаря анализу решений по составленным этим моделям, включая уровень решательности, консистентность объяснений, соответствие общественному моральному стандарту и чувствительность к этически незначимым признакам. ## Результаты Результаты экспериментов показали значительную разницу в поведении моделей в зависимости от моральных фрэймворков и типов моделей. Заметились высокие степени решательности и структурированности в моделях с признаками морального рассуждения по сравнению с общей целевой моделью. Однако эти модели не всегда согласовывались с человеческим согласием в своих решениях. Были выявлены "sweet zones" в моральных фрэймворках, таких как альтруизм, справедливость и виртуозность, где модели показали сбалансированное решение с высоким уровнем вмешательства, низким конфликтом в объяснениях и минимальным отклонением от среднего человеческого суждения. Однако модели различались в своих решениях, когда речь шла о фрэймворках, таких как кровные связи, законность или индивидуальное интересование, что привело к этически спорным результатам. ## Значимость Эти полученные результаты имеют важное значение для сфер, где Бо LLM применяются в решениях этичес

Annotation:

As large language models (LLMs) increasingly mediate ethically sensitive decisions, understanding their moral reasoning processes becomes imperative. This study presents a comprehensive empirical evaluation of 14 leading LLMs, both reasoning enabled and general purpose, across 27 diverse trolley problem scenarios, framed by ten moral philosophies, including utilitarianism, deontology, and altruism. Using a factorial prompting protocol, we elicited 3,780 binary decisions and natural language just...

ID: 2508.07284v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Prosocial Behavior Detection in Player Game Chat: From Aligning Human-AI Definitions to Efficient Annotation at Scale

2025-08-12

Авторы:

Rafal Kocielnik, Min Kim, Penphob, Boonyarungsrit, Fereshteh Soltani, Deshawn Sambrano, Animashree Anandkumar, R. Michael Alvarez

#### Контекст Детектирование просоциальных поведений в игровых чатах является новым и важным заданием, особенно для систем управления доверием и безопасностью. Отличается от детектирования токсичности, просоциальное поведение определяется как предметно-ориентированное общение, нацеленное на поддержку или улучшение поведения других игроков. Однако существуют узкие места, такие как неполные определения и отсутствие широко распространенных наборов данных для обучения моделей. Мы разработали методологию, которая позволяет эффективно детектировать просоциальность в тексте и решает проблему нехватки человеческих меток. #### Метод Мы предлагаем трехэтапную пипелье, нацеленную на эффективное классификационное решение в области просоциальности. Используя небольшой набор меток от человеков, мы идентифицировали наиболее эффективный подход к автоматической маркировке текста с помощью нейросетевых моделей. Во втором этапе мы ввели цикл человеко-AI, который позволяет сократить разбирательства между людьми и моделями (в нашем случае GPT-4), уточняя и расширяя определения. В третьем этапе мы автоматизировали процесс синтеза большого количества высококачественных меток с помощью GPT-4 и разработали двухэтапную систему интерпретации: легковесный классификатор работает с высокой долей уверенности, а в случаях неоднозначности происходит вызов модели GPT-4. #### Результаты Мы провели эксперименты с 10k меток, синтезировав данные с помощью GPT-4. Наши результаты показали надежную точность классификации просоциальных поведений, приблизительно 0.90, при этом уменьшив затраты на интерпретацию примерно на 70%. Мы также доказали, что наша методология оптимизирует синтез меток, уменьшает затраты на обучение и в то же время повышает точность. #### Значимость Наш подход может быть применен в различных системах мониторинга игровых чатов, помогая снизить порог вхождения для разработчиков систем управления доверием и безопасностью. Он также предлагает значительные преимущества, включая высокую точность, снижение затрат и упрощение процесса классификации. Этот подход может выступать в качестве модели для других задач, требующих эффективного решения с помощью человеко-AI-интерактивных систем. #### Выводы Мы доказали эффективность нашего подхода в решении задачи классификации просоциальности в тексте, а также сделали значительный шаг в сторону оптимизации человеко-AI-интерактивных систем. Наша работа открывает новые возможности для развития систем модерации и мониторинга в реальном времени, которые требуют высокой точности, эффективности и минималь

Annotation:

Detecting prosociality in text--communication intended to affirm, support, or improve others' behavior--is a novel and increasingly important challenge for trust and safety systems. Unlike toxic content detection, prosociality lacks well-established definitions and labeled data, requiring new approaches to both annotation and deployment. We present a practical, three-stage pipeline that enables scalable, high-precision prosocial content classification while minimizing human labeling effort and i...

ID: 2508.05938v1 cs.CL, cs.AI, cs.CY, I.2.7; K.4

arXiv PDF

📄 Beyond Brainstorming: What Drives High-Quality Scientific Ideas? Lessons from Multi-Agent Collaboration

2025-08-08

Авторы:

Nuo Chen, Yicheng Tong, Jiaying Wu, Minh Duc Duong, Qian Wang, Qingyun Zou, Bryan Hooi, Bingsheng He

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация научных идей является фундаментальной задачей в процессе исследовательской деятельности, определяющей направление развития науки и технологий. Современные системы искусственного интеллекта демонстрируют растущий потенциал в автоматизированной генерации научных концепций, однако большинство существующих фреймворков ограничиваются использованием одиночных агентов, работающих в изоляции. Такой подход сталкивается с фундаментальными ограничениями, связанными с ограниченностью знаний и перспектив отдельного агента, что приводит к снижению креативности и инновационности предлагаемых идей. В реальном научном процессе прорывные идеи редко возникают в результате индивидуального размышления. Напротив, они формируются в ходе коллаборативных обсуждений между учеными с различным опытом, экспертизой и точками зрения. Эта социальная природа научного творчества остаётся недостаточно исследованной в контексте разработки систем ИИ для генерации научных идей. Существующие исследования фокусируются преимущественно на улучшении способностей отдельных агентов, в то время как коллективная динамика и структурные аспекты командной работы остаются вне поля зрения. Ключевой проблемой является отсутствие систематического понимания того, как различные параметры многоагентного взаимодействия влияют на качество генерируемых научных предложений. Вопросы оптимального размера команды, наличия или отсутствия лидерства, уровня междисциплинарности и сочетания опыта участников остаются открытыми. Без такого понимания разработка эффективных систем ИИ для научной генерации идей будет продолжать полагаться на интуитивные и эмпирические подходы, а не на строгое научное обоснование. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают кооперативный многоагентный фреймворк, специально разработанный для генерации научных исследовательских предложений. Система построена на принципах структурированного взаимодействия между агентами, каждый из которых представляет собой языковую модель с определённым набором характеристик и экспертизой. Архитектура фреймворка включает несколько ключевых компонентов, обеспечивающих эффективную коллаборацию. Первым компонентом является механизм назначения ролей, где каждый агент получает чётко определённую персону с уникальной комбинацией опыта (младший/старший исследователь) и дисциплинарной принадлежности (биология, информатика, физика и др.). Это позволяет моделировать различные конфигурации команд, включая однородные и гетерогенные составы. Вторым важным элементом является система управления дискуссией, которая может функционировать как в лидерском режиме (с назначенным лидером-агентом), так и в безлидерском формате. Процесс генерации идей происходит в несколько этапов. На начальном этапе агенты независимо генерируют предварительные идеи на основе общей тематики. Затем следует фаза структурированной дискуссии, где агенты обмениваются мнениями, критикуют идеи друг друга и предлагают улучшения. В лидерской конфигурации лидер-агент координирует обсуждение, направляет внимание команды на ключевые аспекты и интегрирует предложения в единое целостное предложение. В безлидерской конфигурации используется консенсусный подход с автоматическим обнаружением и разрешением конфликтов. Для оценки качества генерируемых идей разработан комплексный протокол, включающий как автоматизированную, так и человеческую оценку. Автоматизированная система использует специально обученных агентов-оценщиков, которые анализируют предложения по нескольким измерениям: новизна, стратегическое видение, глубина интеграции концепций, практическая применимость и теоретическая обоснованность. Человеческая экспертиза привлекается для валидации результатов автоматической оценки и обеспечения научной достоверности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала систематическое сравнение различных конфигураций многоагентных систем с одиночными агентами-базовыми линиями. Всего было протестировано более 30 различных конфигураций, варьирующихся по размеру команды (от

Annotation:

While AI agents show potential in scientific ideation, most existing frameworks rely on single-agent refinement, limiting creativity due to bounded knowledge and perspective. Inspired by real-world research dynamics, this paper investigates whether structured multi-agent discussions can surpass solitary ideation. We propose a cooperative multi-agent framework for generating research proposals and systematically compare configurations including group size, leaderled versus leaderless structures, ...

ID: 2508.04575v1 cs.CL, cs.AI, cs.CY

arXiv PDF

1
2
3
4
5

Показано 41 - 50 из 50 записей