📚 Саммари научных статей из arXiv

Найдено 208 результатов по запросу 'cs.AI, cs.CY' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization

2025-08-14

Авторы:

Yuzhuo Bai, Shitong Duan, Muhua Huang, Jing Yao, Zhenghao Liu, Peng Zhang, Tun Lu, Xiaoyuan Yi, Maosong Sun, Xing Xie

## Контекст Large Language Models (LLMs), обученные разнообразным текстовым корпусам, могут повторять человеческие характеристики и стили подсказками. Это возможность используется в широком кругу приложений, таких как персонализация LLMs и социальные симуляции. Однако существующие методы страдают от проблемы поверхностного подражания: LLMs могут только воспроизводить внешние стилистические особенности без поглубжей интеграции желаемых черт. Это приводит к нестабильности и несогласованности в имитации желаемых характеристик. Мотивируясь этим, мы предлагаем IROTE, метод для эффективного и надежного пробуждения человеческих характеристик в LLMs. ## Метод IROTE основывается на психологических теориях, связывающих характеристики с автопознанием и саморефлексией. Мы разработали механизм, который автоматически генерирует и оптимизирует текст саморефлексии внутри промптов. Этот текст описывает испытания и взгляды самого языкового модели, создавая яркую и конкретную картину желаемой черты. Оптимизация выполняется через информационно-теоретическую функцию максимизации, увеличивающую связь между характеристикой и текстом модели, при этом уменьшая шум и ненужную информацию. Этот процесс не требует оптимизации весов модели и дает стабильную и переносимую ролевую игру. ## Результаты Мы провести эксперименты на трех разных системах человеческих черт, проверяя целесообразность IROTE на различных задачах. Результаты показывают, что один текст саморефлексии, сгенерированный IROTE, позволяет LLMs оживить желаемую черту в различных сценариях. Наши результаты постоянно превосходят сильные текущие базы, демонстрируя более глубокие и устойчивые эффекты. Это доказывает значительное преимущество IROTE в области поддержки человеческих характеристик. ## Значимость Метод IROTE может применяться в сферах, где требуется поддержка человеческих черт, такие как социальные симуляции, персонализация технологий и даже создание имитационных систем. Он обеспечивает более стабильные и реалистичные характеристики, чем существующие методы. Будущие работы будут направлены на расширение метода на новые типы черт и улучшение его интеграции с другими технологиями. ## Выводы Итоги нашего исследования показывают, что IROTE является прорывом в области стабильного и переносимого пробуждения человеческих черт в LLMs. Наш метод позволяет получить более внутреннюю и консистентную имитацию человеческих характеристик, что открывает пути для

Annotation:

Trained on various human-authored corpora, Large Language Models (LLMs) have demonstrated a certain capability of reflecting specific human-like traits (e.g., personality or values) by prompting, benefiting applications like personalized LLMs and social simulations. However, existing methods suffer from the superficial elicitation problem: LLMs can only be steered to mimic shallow and unstable stylistic patterns, failing to embody the desired traits precisely and consistently across diverse task...

ID: 2508.08719v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Simulating Generative Social Agents via Theory-Informed Workflow Design

2025-08-14

Авторы:

Yuwei Yan, Jinghua Piao, Xiaochong Lan, Chenyang Shao, Pan Hui, Yong Li

## Контекст В последние годы рост сильных языковых моделей (LLM) позволил исследователям создавать представителей искусственного интеллекта с условием, чтобы эти агенты могли не только себя определять, но и адаптироваться в социальных ситуациях. Однако существующие модели часто являются сценарий-зависимыми, то есть оптимизированы для конкретных задач и не обладают гибкостью в работе в разных социальных контекстах. Это ограничивает их потенциал в создании достоверных и консистентных социальных моделей. Мотивация для данного исследования лежит в развитии подхода, позволяющего генерировать социально-умные агенты с широким спектром возможностей и высокой консистентностью в поведении. ## Метод Для реализации такого подхода предложена новая теория-информированная логика построения социальных агентов. Это решение основывается на теории социального поведения и разделяется на три модуля: мотивация, планирование действий и обучение. Каждый из этих модулей отвечает за конкретную функцию. Мотивация помогает агенту определять свои цели и метки. Модуль планирования действий обеспечивает логическую структуру действий агента. Модуль обучения позволяет агенту взаимодействовать с окружающим миром и реагировать на изменения. Такая интеграция позволяет модели генерировать естественно выглядящие социальные модели, которые могут адаптироваться к разным ситуациям. ## Результаты Эксперименты показали, что модель, основанная на теории-информированном подходе, демонстрирует высокую точность в моделировании реальных социальных моделей. Ошибки системы, сравниваясь с классическими генерирующими моделями, сократились на 75% по метрикам фидбека с реальными данными. Это доказывает высокую интуитивность и консистентность новой модели. Анализ диаграммы абляции показал, что каждый модуль (мотивация, планирование и обучение) играет ключевую роль в создании реалистичных моделей поведения, и удаление любого из них приводит к значительному увеличению ошибок. ## Значимость Предлагаемая модель может иметь широкое применение в многих областях, включая социальные симуляции, игры, образовательные системы и даже социальные исследования. Особенно важно, что модель обладает высокой гибкостью и контекстуальной адаптивностью, что делает ее уникальной в сравнении с другими генерирующими моделями. Также, новый подход может способствовать улучшению более широкой диагностики и моделирования социальных процессов в цифровых средах. ## Выводы Разработанная теория-информированная фреймворк демонстрирует свою эффективность в моделировании социальных агентов. Он доказы

Annotation:

Recent advances in large language models have demonstrated strong reasoning and role-playing capabilities, opening new opportunities for agent-based social simulations. However, most existing agents' implementations are scenario-tailored, without a unified framework to guide the design. This lack of a general social agent limits their ability to generalize across different social contexts and to produce consistent, realistic behaviors. To address this challenge, we propose a theory-informed fram...

ID: 2508.08726v1 cs.AI, cs.CY

arXiv PDF

📄 Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face

2025-08-13

Авторы:

Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg

## Контекст Область исследования состоит в изучении создания и развития моделей машинного обучения (ML), особенно в контексте генеративных моделей и искусственного интеллекта (AI). За последние годы возрастает интерес к разработке и применению таких моделей в различных сферах. Однако ограниченное количество эмпирических исследований посвящено изучению структуры взаимодействий при развитии и применении этих моделей. Это затрудняет понимание эволюционных процессов, происходящих в экосистеме ML. Учитывая растущий объем моделей и их взаимосвязей, необходимо получить более глубокие аналитические сведения о том, как эти модели создаются, адаптируются и используются. Задача этого исследования — получить эмпирические подтверждения для понимания логики того, как генеративные модели развиваются, и выделить направления для будущих исследований. ## Метод Для изучения структуры и эволюции моделей ML было использовано данные с платформы Hugging Face, ведущей платформы для разработки моделей ML. Исследователи разработали архитектуру подхода, основанную на изучении "деревьев моделей" — структур, которые связывают между собой модели, основанные на базовых моделях или "родительские" модели. Для измерения генетической схожести использовались метаданные моделей и "карточки моделей" (model cards), которые содержат сведения о метаданных, наименовании и описании моделей. Методом анализа было применено подходы, подобные эволюционной биологии, для изучения сходства моделей, их взаимодействия и уровня мутаций. Эта методология позволила получить новые подходы к изучению взаимосвязей в ML-экосистемах. ## Результаты Исследование охватило 1.86 миллиона моделей, размещенных на Hugging Face. Отдельным аспектом было изучение "деревьев моделей", показавших разнообразие структур и размеров этих сетей. Изучив семейные сходства моделей, исследователи обнаружили, что модели, принадлежащие к одной семье, демонстрируют большую генетическую схожесть, но это сходство отличается от стандартных моделей по аксельсорсной репродукции. Так, две "сестринские" модели чаще всего более похожи друг на друга, чем родительская и дочерняя модель. Эволюционные анализы также выявили некоторые интересные тенденции в экосистеме ML. Например, модели часто перемещаются от ограничительных коммерческих лицензий к более открытым, таким как последовательные (copyleft) или менее ограничительные лицензии, что порой противоречит условиям "родительских" лицензий. Также обнаружена тенденция к уменьшению размера моделей, превращению в англоязычные, а также к стандартизации моделе

Annotation:

Many have observed that the development and deployment of generative machine learning (ML) and artificial intelligence (AI) models follow a distinctive pattern in which pre-trained models are adapted and fine-tuned for specific downstream tasks. However, there is limited empirical work that examines the structure of these interactions. This paper analyzes 1.86 million models on Hugging Face, a leading peer production platform for model development. Our study of model family trees -- networks tha...

ID: 2508.06811v1 cs.SI, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 Designing a Feedback-Driven Decision Support System for Dynamic Student Intervention

2025-08-13

Авторы:

Timothy Oluwapelumi Adeyemi, Nadiah Fahad AlOtaibi

#### Контекст В последние годы сфера образовательных технологий набирает все большую популярность, особенно с точки зрения динамического прогнозирования показателей студенческой активности и их интервенции. Однако существующие решения часто ограничиваются статическими моделями прогнозирования, не учитывающими новые данные, например, после выполнения интервенции. Это значительно снижает достоверность прогнозов и их применимость в реальных учебных процессах. Необходимость в адаптивных системах, которые могут активно реагировать на изменения в поведении студентов, стала мотивацией для разработки автоматизированных инструментов с целью оптимизации учебного процесса. #### Метод Разработанная система Feedback-Driven Decision Support System (DSS) основывается на архитектуре closed-loop, позволяющей регулярно обновлять модели прогнозирования на основе поступающих данных об интервенциях и результатах студентов. Фундаментом системы является LightGBM-регрессор с инкрементным ретренингом, который адаптируется к новым данным. Для улучшения удобства использования интерактивная Flask-базированная веб-панель позволяет операторам вносить изменения в модель и сразу же отслеживать их влияние на прогнозы. Дополнительно, интегрирована SHAP-аналитика, обеспечивающая прозрачность и надежность модели, дающие уверенность в рекомендациях системы. #### Результаты Эксперименты проводились на данных, представляющих студенческие результаты до и после интервенций. Результаты показали снижение RMSE на 10.7% после регулярного обновления модели. Прогнозы для студентов, получивших интервенции, адаптивно перестраивались вверх в зависимости от улучшений в их результатах. Эти результаты подтверждают высокую точность и способность системы адаптироваться к индивидуальным изменениям в активности студентов. #### Значимость Система имеет широкие области применения, в том числе в образовательных учреждениях для мотивации студентов, анализа прогресса и отслеживания интервенций. Ее преимущества включают улучшение точности прогнозов, интерактивность и возможность непрерывного обновления. Потенциальное влияние заключается в том, что система может стать основой для новых подходов в образовательных анализах, обеспечивая более эффективный динамический подход к интервенциям. #### Выводы Разработанная система демонстрирует высокую эффективность в плане динамического моделирования и поддержки интервенций. Будущие исследования будут нацелены на расширение функциональности системы, включая добавление новых алгоритмов и повышение скорости реакции на изменения. Также планируется расширение возможносте

Annotation:

Accurate prediction of student performance is essential for enabling timely academic interventions. However, most machine learning models used in educational settings are static and lack the ability to adapt when new data such as post-intervention outcomes become available. To address this limitation, we propose a Feedback-Driven Decision Support System (DSS) with a closed-loop architecture that enables continuous model refinement. The system employs a LightGBM-based regressor with incremental r...

ID: 2508.07107v2 cs.AI, cs.CY, K.3.1; I.2.6; H.4

arXiv PDF

📄 "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas

2025-08-13

Авторы:

Junchen Ding, Penghao Jiang, Zihao Xu, Ziqi Ding, Yichen Zhu, Jiaojiao Jiang, Yuekang Li

## Контекст В последние годы значительное внимание уделяется исследованию возможностей и функциональных характеристик Бо LLM (большие языковые модели), включая их участие в принятии этически важных решений. Эти модели применяются в различных сферах, включая право, медицину и социальную сферу. Однако их возможности в моральном рассуждении и понимании значения человеческих ценностей до сих пор недостаточно изучены. Наличие моральных базисов в Бо LLM является важной задачей для того, чтобы обеспечить их безопасное и эффективное использование в решении проблем, возникающих в сложных ситуациях. Это исследование поднимает вопрос о том, насколько модели эффективно применяют моральные принципы в своих решениях, и как они могут строить свои ответы в зависимости от культурных и этических контекстов. ## Метод Для эту статью была проведена комплексная эмпирическая оценка 14 лидирующих моделей Бо LLM, включая модели с признаками морального рассуждения и общего назначения. Эти модели были протестированы на 27 ситуациях, основанных на такой моральной проблемой, как "trolley problem", которые были формально поставлены в рамках 10 различных моральных философий, включая утилитаризм, деонтологию и альтруизм. Использовалась факторическая техника подсказки (prompting), чтобы вызвать 3780 бинарных решений, а также естественные языковые обоснования. Это стало возможным благодаря анализу решений по составленным этим моделям, включая уровень решательности, консистентность объяснений, соответствие общественному моральному стандарту и чувствительность к этически незначимым признакам. ## Результаты Результаты экспериментов показали значительную разницу в поведении моделей в зависимости от моральных фрэймворков и типов моделей. Заметились высокие степени решательности и структурированности в моделях с признаками морального рассуждения по сравнению с общей целевой моделью. Однако эти модели не всегда согласовывались с человеческим согласием в своих решениях. Были выявлены "sweet zones" в моральных фрэймворках, таких как альтруизм, справедливость и виртуозность, где модели показали сбалансированное решение с высоким уровнем вмешательства, низким конфликтом в объяснениях и минимальным отклонением от среднего человеческого суждения. Однако модели различались в своих решениях, когда речь шла о фрэймворках, таких как кровные связи, законность или индивидуальное интересование, что привело к этически спорным результатам. ## Значимость Эти полученные результаты имеют важное значение для сфер, где Бо LLM применяются в решениях этичес

Annotation:

As large language models (LLMs) increasingly mediate ethically sensitive decisions, understanding their moral reasoning processes becomes imperative. This study presents a comprehensive empirical evaluation of 14 leading LLMs, both reasoning enabled and general purpose, across 27 diverse trolley problem scenarios, framed by ten moral philosophies, including utilitarianism, deontology, and altruism. Using a factorial prompting protocol, we elicited 3,780 binary decisions and natural language just...

ID: 2508.07284v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Optimizing Districting Plans to Maximize Majority-Minority Districts via IPs and Local Search

2025-08-13

Авторы:

Daniel Brous, David Shmoys

## Контекст В рамках краснотертяшных судебных процессов, эффективное применение Voting Rights Act (VRA) часто включает в себя предоставление суду альтернативным districting plans, которые включают больше majority-minority districts, чем предлагаемый план. Такой подход был применен, например, в Allena v. Milligan (2023), где была проверка districting planа для Alabama. Недавний исследовательский работа Cannon et al. предложила новый heuristic algorithm, который назвали short bursts. Он основывается на сложном random walkе по пространству всех возможных plans, продвигаясь в этих прерывистых "бурстах", где начальный plan для каждого bursting — это лучший из предыдущей iterative. Мы предлагаем метод на основе integer programming (IP), который расширяет работу по stochastic hierarchical partitioning. Этот подход был разработан для оптимизации другого понятия fairness в рамках statewide planов. Мы разрабатываем новый column generation algorithm для создания plans через IP, который опережает short bursts на нескольких наборах данных, создавая statewide plans с большим количеством majority-minority districts. Мы также применяем новую iterative local re-optimization algorithm, которая улучшает каждый базовый plan, и algorithm для увеличения compactness districts без затрагивания number of majority-minority districts. ## Метод Мы используем integer programming (IP) для создания districting plans, которые optimize number of majority-minority districts. Наша методология основывается на previous work по stochastic hierarchical partitioning, который генерирует robust set of potential districts в виде columns в типичной задаче set partitioning. Мы развиваем новый column generation algorithm, который находит plans через IP, превосходя short bursts по нескольким наборам данных. Мы также применяем новый local re-optimization algorithm, который iteratively улучшает любой baseline plan. Для увеличения compactness districts без затрагивания number of majority-minority districts, мы разрабатываем дополнительный algorithm. ## Результаты Мы проводим эксперименты с разными наборами данных, сравнивая наши результаты с short bursts. Наши integer programming-based plans показывают значительное улучшение в создании statewide plans с большим количеством majority-minority districts. Мы также используем new local re-optimization algorithm для улучшения каждого baseline planа. Для увеличения compactness districts без затрагивания number of majority-minority districts, мы применяем дополнительный algorithm. Эти результаты показывают, что наш подход эффективнее short bursts на нескольких наборах данных. ## Значимость Наш подход может быть применен в краснотертяшных судебных процессах для оптимизации districting plans, которые будут включать больше majority-minority districts. Это имеет практическую значимость для применения Voting Rights Act и улучшения fair representation. Мы также экспериментируем с применением наших результатов в других областях, таких как дизайн fair systems и optimization в других сферах, где подходы, основанные на integer programming, могут привести к более effective и fair solutions. ## Выводы Мы достигли значительных улучшений в создании districting plans с большим количеством majority-minority districts по сравнению с short bursts. Этот подход демонстрирует эффективность интегрированного итеративного метода, который может использоваться в других областях с целью создания fair и compact solutions. Мы планируем продолжить исследования в этой области, включая расширение framework для у

Annotation:

In redistricting litigation, effective enforcement of the Voting Rights Act has often involved providing the court with districting plans that display a larger number of majority-minority districts than the current proposal (as was true, for example, in what followed Allen v. Milligan concerning the congressional districting plan for Alabama in 2023). Recent work by Cannon et al. proposed a heuristic algorithm for generating plans to optimize majority-minority districts, which they called short ...

ID: 2508.07446v1 cs.DS, cs.AI, cs.CY

arXiv PDF

📄 Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning

2025-08-13

Авторы:

Stephan Rabanser

#### Контекст Современные машинные обучающие системы (ML) применяются во все более чувствительных областях, где надежность и достоверность являются ключевыми факторами успеха. Однако многие ML-системы страдают от недостатка надежности в условиях неопределенности, что может привести к ошибкам серьезных последствий. В этом контексте возникает задача повышения надежности ML-систем, особенно в ситуациях, когда модель не уверена в своих прогнозах. Эта проблема требует развития методов, позволяющих моделям не только делать прогнозы, но и решать, когда лучше отказаться от них, чтобы избежать потенциальных ошибок. Такие подходы способствуют укреплению доверия пользователей к ML-системам и их безопасному применению в критически важных областях. #### Метод Методология основывается на использовании **неопределенности** в процессе обучения модели как важных индикаторов состоятельности ее прогнозов. Техника **ensembling отдельных чекпоинтов**, обученных моделью в процессе обучения, позволяет построить метод **post-hoc abstention**, который не требует изменения архитектуры или функции потерь модели. Этот подход оказывается легким и эффективным, достигая новых результатов в области **selective prediction**. Более того, метод тщательно интегрируется с **differential privacy (DP)**, чтобы изучить влияние шума, вводимого для обеспечения конфиденциальности, на качество неопределенности. Это открытое исследование позволяет лучше понять тонкий баланс между неопределенностью и защитой конфиденциальности. #### Результаты Результаты исследований показали, что подход, основанный на **trajectory-based uncertainty**, не только показал высокую эффективность в **selective prediction**, но и доказал свою робастность при применении к задачам с защитой конфиденциальности. Другие методы, в том числе те, которые используют **ensemble других моделей**, могут страдать под воздействием шума DP, в то время как траектория-ориентированный подход остается надежным. Также была представлена финальная модель, которая не только способна отказаться от неуверенных прогнозов, но и делает это с поддержкой принципов повышения конфиденциальности. Эти результаты установили новый стандарт в области **trustworthy ML**. #### Значимость Полученные методы могут быть применены в различных областях, где надежность ML-систем является критически важной, таких как здравоохранение, финансы и безопасность. Известно, что **uncertainty estimation** позволяет моделям сделать более уверенные решения, уменьшая риск ошибок. Этот подход также открывает возможности для **сочетания надежности и конфиденциальности**, что может стать решением многих проблем в сфере прикладного использования моделей. Благодаря этой работе, модели становятся боле

Annotation:

Machine learning (ML) systems are increasingly deployed in high-stakes domains where reliability is paramount. This thesis investigates how uncertainty estimation can enhance the safety and trustworthiness of ML, focusing on selective prediction -- where models abstain when confidence is low. We first show that a model's training trajectory contains rich uncertainty signals that can be exploited without altering its architecture or loss. By ensembling predictions from intermediate checkpoints,...

ID: 2508.07556v1 cs.LG, cs.AI, cs.CY, stat.ML

arXiv PDF

📄 EMPATHIA: Multi-Faceted Human-AI Collaboration for Refugee Integration

2025-08-13

Авторы:

Mohamed Rayan Barhdadi, Mehmet Tuncel, Erchin Serpedin, Hasan Kurban

## Контекст Интеграция беженцев является не только технической, но и эмоционально-цивилизационной проблемой, необходимой для сохранения человеческой дигины и успешного взаимодействия в межкультурной среде. Существуют технологии, которые оптимизируют широкие аспекты интеграции, такие как трудоустройство, но не учитывают культурные, эмоциональные и этические факторы, которые важны для долгосрочного благополучия относительно иммигрантов. Эти недостатки могут привести к противоречивости и неэффективности решений. Наша мотивация заключается в разработке метода, который учитывает не только технологические аспекты но и концептуальные факторы, чтобы сделать процесс интеграции более совершенным и универсальным. ## Метод Мы предлагаем EMPATHIA (Enriched Multimodal Pathways for Agentic Thinking in Humanitarian Immigrant Assistance), разработанный как многоагентный фреймворк с тремя модулями: SEED (Socio-cultural Entry and Embedding Decision) для начального размещения, RISE (Rapid Integration and Self-sufficiency Engine) для быстрого достижения независимости и THRIVE (Transcultural Harmony and Resilience through Integrated Values and Engagement) для долгосрочного успеха. SEED основывается на архитектуре "селектор-валидатор", в которой сотрудничают три специализированных агента: эмоциональный, культурный и этический. Эти агенты работают транспарентно, чтобы создать совместимость между ценностями и интересами всех участников. Метод реализован на данных UN Kakuma (15,026 индивидуумов, 7,960 человек старше 15 лет) и далее протестирован на 6,359 беженцев, которые являются подростками и взрослыми с 15+ лет и 150+ статистическими переменными. ## Результаты Проведенные эксперименты показали, что EMPATHIA достигает 87.4% конвергенции в процессе валидации. Этот показатель подтверждает точность и надежность решений, предоставляемых фреймворком. Наши рекомендации демонстрируют высокую степень прозрачности и понятности, что обеспечивает удобство принятия решений для практиков. Эти результаты были проверены в 150+ экономических переменных в различных странах-хозяевах. Это позволило установить баланс между различными ценностями, достигнуть точности в рекомендациях и обеспечить эффективную работу с социальными и профессиональными сетями. ## Значимость EMPATHIA может применяться в различных областях, где требуется учет множества ценностных систем в процессе принятия решений. Например, это могут быть области, где потребуется сохранение человеческой дигины в процессе поиска работы или размещения, в области социальной и экономической поддержки. Основные преимущества EMPATHIA заключаются в том, что он не заменяет человеческую экспертизу, а улучшает ее, добавляя новые перспективы и достигая более точных

Annotation:

Current AI approaches to refugee integration optimize narrow objectives such as employment and fail to capture the cultural, emotional, and ethical dimensions critical for long-term success. We introduce EMPATHIA (Enriched Multimodal Pathways for Agentic Thinking in Humanitarian Immigrant Assistance), a multi-agent framework addressing the central Creative AI question: how do we preserve human dignity when machines participate in life-altering decisions? Grounded in Kegan's Constructive Developm...

ID: 2508.07671v1 cs.AI, cs.CY, cs.HC, cs.MA, stat.AP, 68T07, 68T42, 68T50, 91F20, 62P25, I.2.11; I.2.1; H.1.2; J.4; K.4.2

arXiv PDF

📄 Prosocial Behavior Detection in Player Game Chat: From Aligning Human-AI Definitions to Efficient Annotation at Scale

2025-08-12

Авторы:

Rafal Kocielnik, Min Kim, Penphob, Boonyarungsrit, Fereshteh Soltani, Deshawn Sambrano, Animashree Anandkumar, R. Michael Alvarez

#### Контекст Детектирование просоциальных поведений в игровых чатах является новым и важным заданием, особенно для систем управления доверием и безопасностью. Отличается от детектирования токсичности, просоциальное поведение определяется как предметно-ориентированное общение, нацеленное на поддержку или улучшение поведения других игроков. Однако существуют узкие места, такие как неполные определения и отсутствие широко распространенных наборов данных для обучения моделей. Мы разработали методологию, которая позволяет эффективно детектировать просоциальность в тексте и решает проблему нехватки человеческих меток. #### Метод Мы предлагаем трехэтапную пипелье, нацеленную на эффективное классификационное решение в области просоциальности. Используя небольшой набор меток от человеков, мы идентифицировали наиболее эффективный подход к автоматической маркировке текста с помощью нейросетевых моделей. Во втором этапе мы ввели цикл человеко-AI, который позволяет сократить разбирательства между людьми и моделями (в нашем случае GPT-4), уточняя и расширяя определения. В третьем этапе мы автоматизировали процесс синтеза большого количества высококачественных меток с помощью GPT-4 и разработали двухэтапную систему интерпретации: легковесный классификатор работает с высокой долей уверенности, а в случаях неоднозначности происходит вызов модели GPT-4. #### Результаты Мы провели эксперименты с 10k меток, синтезировав данные с помощью GPT-4. Наши результаты показали надежную точность классификации просоциальных поведений, приблизительно 0.90, при этом уменьшив затраты на интерпретацию примерно на 70%. Мы также доказали, что наша методология оптимизирует синтез меток, уменьшает затраты на обучение и в то же время повышает точность. #### Значимость Наш подход может быть применен в различных системах мониторинга игровых чатов, помогая снизить порог вхождения для разработчиков систем управления доверием и безопасностью. Он также предлагает значительные преимущества, включая высокую точность, снижение затрат и упрощение процесса классификации. Этот подход может выступать в качестве модели для других задач, требующих эффективного решения с помощью человеко-AI-интерактивных систем. #### Выводы Мы доказали эффективность нашего подхода в решении задачи классификации просоциальности в тексте, а также сделали значительный шаг в сторону оптимизации человеко-AI-интерактивных систем. Наша работа открывает новые возможности для развития систем модерации и мониторинга в реальном времени, которые требуют высокой точности, эффективности и минималь

Annotation:

Detecting prosociality in text--communication intended to affirm, support, or improve others' behavior--is a novel and increasingly important challenge for trust and safety systems. Unlike toxic content detection, prosociality lacks well-established definitions and labeled data, requiring new approaches to both annotation and deployment. We present a practical, three-stage pipeline that enables scalable, high-precision prosocial content classification while minimizing human labeling effort and i...

ID: 2508.05938v1 cs.CL, cs.AI, cs.CY, I.2.7; K.4

arXiv PDF

📄 ECMF: Enhanced Cross-Modal Fusion for Multimodal Emotion Recognition in MER-SEMI Challenge

2025-08-12

Авторы:

Juewen Hu, Yexin Li, Jiulin Li, Shuo Chen, Pring Wong

## Контекст Эмоциональное распознавание (emotion recognition) является ключевым компонентом современных систем интерактивных технологий, таких как конференц-сервисы, диагностика психиатрических расстройств и улучшение опыта пользователя в системах беспилотных автомобилей. Однако существуют значительные проблемы, связанные с данными, в частности, недостаточностью и помехами в телеметрических данных, что существенно снижает точность распознавания эмоций. Это затрудняет развитие эффективных методов для решения задачи эмоционального распознавания в широких приложениях. Мы разработали рам framework, который адресует эти проблемы, обеспечивая более точное и устойчивое распознавание эмоций в мультимодальных системах. ## Метод Мы предлагаем **ECMF (Enhanced Cross-Modal Fusion)** — расширенный метод для взаимодействия между модальностями, который использует большие предварительно обученные модели для эффективного извлечения информативных признаков из визуальных, аудио и текстовых данных. Для визуальных данных, мы используем двух branch-проекцию: глобальные фичи кадров и локальные фичи лиц, которые обрабатываются индивидуально. Для текстовых данных, мы применяем контекст-улучшенный метод, который включает значительные эмоциональные признаки через лонг лэнгвэй модели. Для объединения этих модальностей, мы предлагаем стратегию с само-аттенцией для динамического взвешивания модальностей, а также резидентные связи для сохранения исходных представлений. ## Результаты Мы проводили эксперименты на датасете MER2025-SEMI, сравнивая нашу модель с официальным базовым решением. Наша модель показала значительное улучшение во весьма весомом F-меры на уровне 87.49%, что значительно превосходит официальный базовый результат 78.63%. Это демонстрирует эффективность нашего подхода в обработке мультимодальных эмоциональных сигналов и улучшении результатов распознавания. ## Значимость Наш подход может применяться в сферах, где эмоциональное распознавание имеет ключевое значение, включая медицину, образование и интерактивные системы. Он предлагает значительные преимущества, включая высокую точность распознавания, устойчивость к помехам в данных и универсальность, применимость к разным модальностям. Мы ожидаем, что наша работа способствует развитию технологий эмоционального распознавания в широких сферах применения. ## Выводы Мы представили ECMF, расширенный метод для эффективного взаимодействия между модальностями в задаче эмоционального распознавания. Наши результаты показали значительное улучшение над официальным базовым решением в MER2025-SEMI. Будущ

Annotation:

Emotion recognition plays a vital role in enhancing human-computer interaction. In this study, we tackle the MER-SEMI challenge of the MER2025 competition by proposing a novel multimodal emotion recognition framework. To address the issue of data scarcity, we leverage large-scale pre-trained models to extract informative features from visual, audio, and textual modalities. Specifically, for the visual modality, we design a dual-branch visual encoder that captures both global frame-level features...

ID: 2508.05991v1 cs.CV, cs.AI, cs.CY

arXiv PDF

1
2
18
19
20
21

Показано 191 - 200 из 208 записей