📚 Саммари научных статей из arXiv

Найдено 208 результатов по запросу 'cs.AI, cs.CY' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 What Is The Political Content in LLMs' Pre- and Post-Training Data?

2025-09-30

Авторы:

Tanise Ceron, Dmitry Nikolaev, Dominik Stammbach, Debora Nozza

#### Контекст Large language models (LLMs) широко используются в различных сферах, но одной из их характеристик является политическая биаз. Несмотря на то, что политические предрассудки моделей часто обсуждаются, их происхождение и источники остаются малоизученными. Одним из ключевых аспектов понимания этого явления является анализ политического содержания данных, используемых в обучении моделей. В настоящем исследовании анализируется содержание данных, использованных в обучении модели OLMO2, последней полностью открытой модели, выпущенной с открытым исходным кодом и её полным набором данных. Эта работа призвана раскрыть, как политический контент в данных влияет на политический биаз моделей. #### Метод Для анализа использовались пре- и пост-тренировочные данные модели OLMO2. Данные автоматически аннотированы с использованием методов автоматического определения политического ориентира документов. Для обеспечения точности использовались различные источники данных, включая новостные статьи, политические мемы и другие тексты. Для анализа использовались методы статистического анализа и машинного обучения для выявления зависимостей между политическим содержанием данных и политическим биазом модели. #### Результаты Изучение политического содержания данных показало, что пре-тренировочные данные OLMO2 содержат сильно выраженное политическое содержание, которое значительно превышает политическую активность в пост-тренировочных данных. Также выявлено, что эти данные в основном относятся к левосторонней политической ориентации. Было выявлено, что политические тексты окраинных политических позиций формулируются с различными легітимностью и ценностями. Анализ показал, что политический биаз в данных сильно коррелирует с политическим биазом модели при оценке политических вопросов. #### Значимость Результаты имеют значимость для широких областей применения, включая разработку более ответственных моделей, анализ политических предрассудков в тексте. Изучение политического содержания данных позволит создавать более транспарентные модели и избегать политических предрассудков при их используемой. Данные результаты также могут быть использованы для расширения понимания политических предрассудков в машинном обучении и разработки новых подходов к оценке и контролю политического содержания данных. #### Выводы Исследование показало, что политический содержание в данных является ключевым фактором, влияющим на политический биаз моделей. Найдено, что политическое содержание в пре-тренировочных данных значительно влияет на политический биаз модели в пост-тренировочном этапе. Будущи

Annotation:

Large language models (LLMs) are known to generate politically biased text, yet how such biases arise remains unclear. A crucial step toward answering this question is the analysis of training data, whose political content remains largely underexplored in current LLM research. To address this gap, we present in this paper an analysis of the pre- and post-training corpora of OLMO2, the largest fully open-source model released together with its complete dataset. From these corpora, we draw large r...

ID: 2509.22367v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Which Cultural Lens Do Models Adopt? On Cultural Positioning Bias and Agentic Mitigation in LLMs

2025-09-27

Авторы:

Yixin Wan, Xingrun Chen, Kai-Wei Chang

## Контекст Large language models (LLMs) становятся все более важной частью области искусственного интеллекта, оперируя в решении широкого спектра задач, от текстового генерирования до синтеза кода. Несмотря на их мощь и универсальность, они не освобождаются от проблемы специфичности культурного контекста. Исследователи обнаружили, что LLMs часто придерживаются определенного культурного подхода, в основном ориентированного на успешную культуру США. Это приводит к ситуации, когда другие культуры оказываются внешними, что может повлиять на справедливость и точность их полученных результатов. Наша работа фокусируется на установлении этого нового вида культурного позиционирования в генерируемых текстах LLMs, а также на разработке методик для исправления этого неравенства. ## Метод Мы предлагаем **CultureLens Benchmark** — набор 4000 заданий на получение текстов с высшим уровнем точности и позиционирования. Наши эксперименты основываются на задаче генерирования интервью скриптов, где LLM принимает роль репортёра, работающего на местных людях в различных культурных окружениях. Метрики оценки включают в себя статистические показатели для выявления того, сколько процентов текста генерируется с инсайдерским тоном, и как часто модель прибегает к внешнему, "внешнему" тону. Для методологии было разработано два прототипа агентной модели: (1) **Single-Agent Method**, в которой LLM предпринимает глубокую процедуру саморефлексии и корректировки генерируемого текста, и (2) **Multi-Agent Method**, в которой LLM работает в иерархии специализированных агентов, подходящих для разных этапов процесса. ## Результаты Наши эксперименты показали, что LLMs, такие как GPT-3.5 и LLaMA, повторяют культурные стереотипы: они адекватно генерируют тексты с инсайдерским тоном для контекстов США, но часто не умеют правильно отражать культуры, которые не являются глобально влияющими. Например, в скриптах на тему интервью с местными людьми в Африке, Индии и других культурных регионах, модель часто оказывается внешним, недостаточно точным в отображении культурных характеристик. Методы, предложенные в нашей работе, показали существенный прогресс в снижении возникающих культурных упреждений, повысив точность и честность генерируемых текстов. ## Значимость Это работа имеет значительное значение для обеспечения справедливости в генерируемых текстах LLMs. Это может помочь в оптимизации использования LLMs в межкультурных контекстах, таких как медицина, юриспруденция, и международное общение. Она также открывает новые пути для разработки более честных и и

Annotation:

Large language models (LLMs) have unlocked a wide range of downstream generative applications. However, we found that they also risk perpetuating subtle fairness issues tied to culture, positioning their generations from the perspectives of the mainstream US culture while demonstrating salient externality towards non-mainstream ones. In this work, we identify and systematically investigate this novel culture positioning bias, in which an LLM's default generative stance aligns with a mainstream v...

ID: 2509.21080v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Adoption, usability and perceived clinical value of a UK AI clinical reference platform (iatroX): a mixed-methods formative evaluation of real-world usage and a 1,223-respondent user survey

2025-09-27

Авторы:

Kolawole Tytler

## Контекст Современная клиническая практика сталкивается с возрастающим объемом биомедицинской литературы и клинических рекомендаций, что создает проблему информационного захламления. Это негативно сказывается на возможности клиников принимать обоснованные решения, основанные на доказательствах. Искусственный интеллект (ИИ), особенно в виде технологий объемных языковых моделей, предлагает возможность автоматизировать поиск и анализ клинической информации, обеспечивая быстрые и проверенные ответы. Несмотря на эту потенцию, эффективность и применяемость таких систем в реальных клинических условиях до сих пор требуют подтверждения. В этом контексте вводится iatroX — новая клиническая система, основанная на технологии реактивной генерации (RAG), разработанная для поддержки клиников в Лондоне. Её целью является предоставление проверенных, ссылкой на источники ответов на клинические вопросы в реальном времени. Данная статья описывает ранние результаты её применения в условиях реальной клинической среды и оценивает её принятие, удобство использования и клиническую ценность. ## Метод Данные для исследования были собраны в течение 16 недель (от 8 апреля до 31 июля 2025 года) с помощью аналитики сайта и мобильных приложений. Использовался скрипт, рандомизировавший опросы пользователей в 10% случаев, чтобы изучить их мнение о системе. Ответы были анализированы с помощью тематического анализа. Также проводился ретроспективный анализ поведения пользователей в приложении, включая метрики посещений, количество запросов и распространение среди мобильных пользователей. ## Результаты Платформа iatroX была оценена по данным от 1,223 клиников. Оценка пользователей показала, что 86.2% считают платформу полезной, 75.0% оценили её точность, а 79.4% — надежность. Более 93% пользователей заявили, что были бы готовы использовать её снова, а 88.4% — рекомендовать другим клиникам. Среди тех, кто принял участие в опросе, значительное количество отметило быстроту и то, что система предоставляет рекомендации, ориентированные на клинические руководства. Мобильные приложения (для iOS и Android) также получили высокую популярность, особенно в средине Android-пользователей. ## Значимость Результаты показывают, что iatroX может помочь клиников бороться с информационным захламлением, предоставляя быстрые, достоверные ответы, которые опираются на клинические руководства. Она может быть использована как инструмент для повышения эффективности и качества клинического решающего процесса. Эти находки имеют потенциал влиять на развитие ИИ в клинической практик

Annotation:

Clinicians face growing information overload from biomedical literature and guidelines, hindering evidence-based care. Retrieval-augmented generation (RAG) with large language models may provide fast, provenance-linked answers, but requires real-world evaluation. We describe iatroX, a UK-centred RAG-based clinical reference platform, and report early adoption, usability, and perceived clinical value from a formative implementation evaluation. Methods comprised a retrospective analysis of usage a...

ID: 2509.21188v1 cs.HC, cs.AI, cs.CY, cs.IR

arXiv PDF

📄 A Longitudinal Randomized Control Study of Companion Chatbot Use: Anthropomorphism and Its Mediating Role on Social Impacts

2025-09-26

Авторы:

Rose E. Guingrich, Michael S. A. Graziano

## Контекст В последние годы возрастает интерес к социальным искусственным интеллектам (СИИ), которые предназначены для создания близких отношений. Особенно популярными стали психологически настраиваемые чатботы, такие как Replika, которые предназначены для сопутствия и социального общения. Однако возникают вопросы о потенциальной влиятельности таких отношений на человеческие взаимоотношения. Необходима подробная исследовательская работа, чтобы определить, как социальная взаимодействие с ЧПУ влияет на человеческие отношения. Настоящее исследование направлено на изучение этих проблем. ## Метод В рамках данного 21-дневного линейного случайного эксперимента участники (N = 183) были случайным образом разделены на две группы: одна группа взаимодействовала с чатботом-компаньоном через текстовые сообщения, а другая группа проходила текстовые игры. Участники выполняли четыре опросника и два аудиозаписанных интервью в течение исследования. Это позволило изучить связь между чатом с чатботом, человечностью (антропоморфизмом) и его влиянием на социальные отношения. ## Результаты Результаты показали, что взаимодействие с чатботом-компаньоном за 21 дней не оказало существенного влияния на социальное здоровье или связи участников по сравнению с контрольной группой. Однако участники, которые выражали большую желанность социального взаимодействия, более антропоморфизировали чатбот. Этот антропоморфизм, в свою очередь, был связан с более сильным воздействием чатбота на социальные отношения участников. Анализ показал, что влияние чатов с чатботом на социальные отношения через 21 дней было сильно зависимым от человечности, которая в свою очередь была связана с желанием взаимодействовать. ## Значимость Находки имеют большое значение для ростова всевозможных приложений социальной ИИ, что позволяет выявить как благие, так и вредные стороны таких инноваций. Оказавшаяся антропоморфизм является ключевым фактором, который влияет на эффективность взаимодействия с чатботом. Результаты могут оказаться полезными для разработчиков социальных ИИ, которым необходимо учитывать тенденции к человечности при проектировании. ## Выводы На основе представленных результатов можно сделать вывод, что взаимодействие с чатботом-компаньоном может не оказывать существенного влияния на социальные отношения, но этот эффект может усиливаться в зависимости от уровня антропоморфизма. Будущие исследования должны исследовать конкретные факторы, которые влияют на человечность чатботов и на способность чатботов влия

Annotation:

Relationships with social artificial intelligence (AI) agents are on the rise. People report forming friendships, mentorships, and romantic partnerships with chatbots such as Replika, a type of social AI agent that is designed specifically for companionship. Concerns that companion chatbot relationships may harm or replace human ones have been raised, but whether and how these social consequences occur remains unclear. Prior research suggests that people's states of social need and their anthrop...

ID: 2509.19515v1 cs.HC, cs.AI, cs.CY

arXiv PDF

📄 What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities

2025-09-26

Авторы:

Nathanael Jo, Ashia Wilson

## Контекст Оценка генерирующих моделей с помощью бенчмарков стала обычной практикой, и их результаты значительно влияют на публичные и научные ожидания от AI. Однако возникают сомнения в надежности таких оценок. Насколько можно доверять полученным показателям? Оценка часто представляется как простая мера, но на самом деле это вывод: выбор бенчмарка подразумевает уже теорию о том, что такое качество и как оно выражается в тестируемой модели. Мы сделали это сделали явным, предлагая формальный фреймворк для оценки на основе теории: начиная с теории качества, разрабатываются методы ее оценки. Этот подход, широко распространенный в области психометрии, до сих пор не является общепринятым в AI-оценке. Мы демонстрируем его применимость, адресовав основную проблему, которая негативно сказывается на надежности: чувствительность к помехам. ## Метод Мы предлагаем фреймворк, включающий теорию способности, основанную на математической модели, и способы интерпретации результатов бенчмарка в этой теории. Основной аспект — учет неопределенности, вызванной чувствительностью к помехам и ограниченностью данных. Разработана методика, которая принимает во внимание эти факторы, включая адаптивный алгоритм, существенно сокращающий необходимую выборку для достижения заданной точности. Таким образом, мы построили фундамент для более достоверных и надежных оценок AI-способностей через бенчмарки. ## Результаты Проведенные эксперименты показали, что наш подход существенно улучшает надежность оценок. Использовались различные данные, включая стандартные бенчмарки и синтетические наборы. На основе этого показано, что адаптивный алгоритм значительно сокращает необходимую выборку без потери точности, что является ключевым преимуществом. Это позволяет меньше полагаться на дорогие и времязатратные эксперименты, повышая эффективность и надежность оценок AI-моделей. ## Значимость Наш фреймворк имеет широкие реализационные перспективы в различных областях, где оценка AI-моделей является критическим аспектом. Например, в области трансляции языков, распознавания речи, изображений и других критически важных технологий. Он обеспечивает более точную интерпретацию результатов, снижает уровень неопределенности, и может использоваться для более целеых и понятных сравнений AI-систем. Это дает возможность повысить доверие к AI-системам, улучшить их внедрение в реальные приложения и сделать оценку более объективной. ## Выводы Мы представили новый фреймворк для достоверных и надежных оценок AI-моделей через бенчмар

Annotation:

Evaluations of generative models on benchmark data are now ubiquitous, and their outcomes critically shape public and scientific expectations of AI's capabilities. Yet growing skepticism surrounds their reliability. How can we know that a reported accuracy genuinely reflects a model's true performance? Evaluations are often presented as simple measurements, but in reality they are inferences: to treat benchmark scores as evidence of capability is already to assume a theory of what capability is ...

ID: 2509.19590v1 cs.AI, cs.CY, cs.LG

arXiv PDF

📄 Even More Kawaii than Real-Person-Driven VTubers? Understanding How Viewers Perceive AI-Driven VTubers

2025-09-26

Авторы:

Yiluo Wei, Yupeng He, Gareth Tyson

## Контекст Виртуальные туберы (VTubers), цифровые персонажи, представленные анимированными аватарами, приобрели огромную популярность в современном цифровом пространстве. Обычно они управляются и говорят стримерами (Nakanohito), но этот подход не без недостатков. Ответственность за трансляции лежит на контроллере, что создает риски связанные с личными конфликтами или какими-либо проблемами в операциях. Новые AI-driven VTubers могут стать альтернативой, так как они не зависят от людских контроллеров и могут работать беспрерывно. Однако эта модель не без проблем: она поднимает вопросы о чувстве власти и эмоциональном взаимодействии с аудиторией. Чтобы разобраться в этих вопросах, мы рассмотрели случай Neuro-sama, одной из самых известных AI-driven VTubers, используя данные с Reddit и YouTube, чтобы понять, как зрители воспринимают таких персонажей и какую роль выполняют AI-driven VTubers в современной культуре. ## Метод Мы проводили анализ комментариев и сообщений на Reddit и YouTube, связанных с Neuro-sama, виртуальным персонажем, который управляется с помощью AI. Использовались данные с 845 тысяч подписчиков на Twitch и 753 тысячи на YouTube. Мы проанализировали 108 тысяч Reddit-постов и 136 тысяч комментариев на YouTube. Это позволило нам изучить мотивации зрителей, как AI-driven VTubers формируют свои личности, и как пользователи воспринимают эти персонажи в качестве моделей Nakanohito. Методы исследования включили методы количественного и качественного анализа текстовых данных, включая автоматическую обработку текста и тематический анализ. ## Результаты Наши исследования показали, что зрители признают Neuro-sama как автономного персонажа, не связанного с людскими контроллерами. Мы выявили, что AI-driven VTubers способны формировать свою личность, которая часто расценивается как более "крутая" и "неподдельная" по сравнению с традиционными туберами. Зрители также отмечают, что AI-driven VTubers могут предоставлять беспрерывное взаимодействие, что является значительным преимуществом. Однако были выявлены отрицательные аспекты, такие как недостаток эмоционального взаимодействия и возможные проблемы с аутентичностью. ## Значимость Наше исследование имеет значительное значение для понимания развития цифровых культур и цифровых личностей. Оно открывает путь для развития AI-driven VTubers, имеющих более высокую устойчивость к скандалам и рискам. Эти персонажи могут стать важной частью цифровой культуры, улучшая удовольствие зрителей и давая новые возможности для создателей контента. Будущие исследования могут рассматривать более широкий спектр VTubers, у

Annotation:

VTubers, digital personas represented by animated avatars, have gained massive popularity. Traditionally, VTubers are operated and voiced by human controllers known as Nakanohito. The reliance on Nakanohito, however, poses risks due to potential personal controversies and operational disruptions. The emergence of AI-driven VTubers offers a new model free from these human constraints. While AI-driven VTubers present benefits such as continuous operation and reduced scandal risk, they also raise q...

ID: 2509.20817v1 cs.HC, cs.AI, cs.CY

arXiv PDF

📄 Evaluating Large Language Models for Detecting Antisemitism

2025-09-25

Авторы:

Jay Patel, Hrudayangam Mehta, Jeremy Blackburn

-------------------------------------------------------------------------------------------------------------------------- ## Контекст Детектирование ненавистного контента является важной и сложной задачей в современной цифровой среде. Автоматизированные системы, такие как машинное обучение, могут помочь в этом, но требуют непрерывного обновления для адаптации к быстро меняющемуся социальному ландшафту. Антисемитизм, как одна из форм ненависти, требует особого внимания из-за его постоянного проявления в цифровых пространствах. Однако традиционные методы могут быть неэффективны в учёте сложности и субъективности этой проблемы. В данном исследовании предлагается использовать бо LLM (большой языковой модель) для обнаружения антисемитизма, а также изучить способность LLMs в осмыслении различных политических норм и политического определения. -------------------------------------------------------------------------------------------------------------------------- ## Метод Для оценки LLMs (Large Language Models) в области детектирования антисемитизма были использованы восемь открытых моделей. Исследование включает оптимизацию подходов к архитектуре моделей и техникам ведения контекста. Для улучшения результатов в рамках определения политики антисемитизма была разработана новая методика, названная Guided-CoT (Guided Chain of Thought). Эта методика обеспечивает гибкое управление контекстом и подачей политических определений в модель. Модели были оценены на различных наборах данных, включая обученные и тестовые данные, с различными уровнями сложности. Мы также исследовали множество вариантов запросов, чтобы определить, какие техники ведения контекста дают наилучший результат. -------------------------------------------------------------------------------------------------------------------------- ## Результаты Проведенные эксперименты показали, что Guided-CoT значительно улучшает производительность LLMs в задаче детектирования антисемитизма. Модель Llama 3.1 70B показала высокую эффективность, находясь сверху в ряду, даже несмотря на отсутствие дополнительного файна-тюнинга. Было выявлено, что LLM модели с большой мощностью вычислений могут лучше работать с контекстом, чем модели с меньшей мощностью. Однако, даже среди моделей с одинаковой мощностью, разница в показателях зависит от техники ведения контекста и оптимизации. Также было выявлено, что некоторые модели демонстрируют нерегулярности в поведении, в том числе потенциально парадоксальные результаты в зависимости от контекста. -------------------------------------------------------------------------------------------------------------------------- ## Значимость Результаты этого исследования имеют значимые последствия для применения LLMs в области мониторинга содержимого в социальных сетях. Они могут быть использованы для расширения возможностей детектирования ненавистного контента, в том числе антисемитизма, в реальном времени. Благодаря новой методике Guided-CoT модели могут более точно и эффективно рассматривать контекст

Annotation:

Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context po...

ID: 2509.18293v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 When Ads Become Profiles: Large-Scale Audit of Algorithmic Biases and LLM Profiling Risks

2025-09-25

Авторы:

Baiyu Chen, Benjamin Tag, Hao Xue, Daniel Angus, Flora Salim

## Контекст Социальные медиа платформы, такие как Facebook, позволяют рекламодателям автоматически ориентировать пользователей с помощью рекламных объявлений. Эта задача обычно выполняется на основе сложных алгоритмов, которые принимают во внимание пользовательские данные и поведение. Однако этот процесс часто остается за кулисами, что создает риск эксплуатации и непрозрачности. Более того, с появлением Бо LLM, появилась новая проблема: возможность определять чувствительные данные пользователей только по их видимости рекламы. Эти риски направляют внимание на необходимость прозрачного аудита рекламных процессов и разработки эффективных методов для защиты пользовательских данных. ## Метод Мы разработали многоэтапный подход для аудита рекламных процессов. В первой стадии, мы провели аудит, в котором было собрано более 435 000 рекламных импрессий, доставленных 891 пользователю Facebook в Австралии. Мы использовали методы статистической обработки данных для выявления шаблонов и биаса в распределении рекламных объявлений. Во второй стадии, мы разработали мультимодальную модель, основанную на Бо LLM, для реконструкции демографических данных пользователей по их рекламному потоку. Это модель обучалась на данных, полученных в первой стадии и проверялась на относительной точности сравнения с результатами человеческого аудитора. ## Результаты Результаты нашего аудита показали, что определенные группы пользователей, такие как те, кто имеет меньшую статус социально-экономического статуса или высокий индекс политической приверженности, получают более высокий процент рекламы в области азартных игр и политической рекламы. Мультимодальная модель LLM, в свою очередь, показала высокую точность в реконструкции демографических данных пользователей, оказавшись в пределах ожиданий от человеческого аудитора и даже превосходя его в некоторых случаях. Эти результаты демонстрируют, насколько широко могут быть использованы рекламные потоки для инференции чувствительных данных. ## Значимость Это исследование демонстрирует значимость рекламных потоков в качестве цифровых следов, которые могут быть использованы для инференции чувствительных данных о пользователях. Наши результаты представляют первый подтвержденный случай, когда искусственные нейронные сети могут распознавать демографические данные пользователей только на основе рекламных импрессий. Это выделяет необходимость в усилении аудита рекламных процессов и разработке новых методов защиты пользовательских данных в сфере социальных сетей. ## Выводы Мы обнаружили, что рекламные процессы социальных сетей могут создавать риски для чувствительных данных пользователей, которые

Annotation:

Automated ad targeting on social media is opaque, creating risks of exploitation and invisibility to external scrutiny. Users may be steered toward harmful content while independent auditing of these processes remains blocked. Large Language Models (LLMs) raise a new concern: the potential to reverse-engineer sensitive user attributes from exposure alone. We introduce a multi-stage auditing framework to investigate these risks. First, a large-scale audit of over 435,000 ad impressions delivered ...

ID: 2509.18874v1 cs.HC, cs.AI, cs.CY

arXiv PDF

📄 Anecdoctoring: Automated Red-Teaming Across Language and Place

2025-09-25

Авторы:

Alejandro Cuevas, Saloni Dash, Bharat Kumar Nayak, Dan Vann, Madeleine I. G. Daepp

## Контекст Генерирующие модели ИИ, такие как текстовые генераторы текста, становятся все более популярными и применяются в различных областях, от творчества до управления бизнесом. Однако их широкое распространение также сопрягается с рисками, в том числе использованием для распространения дезинформации. Это представляет собой значительную угрозу для общества, особенно в международном масштабе. Существуют технические средства, такие как регулирование и моделирование, которые пытаются справиться с этой проблемой. Тем не менее, многие из них ориентированы на конкретные языки и культуры, что приводит к несоответствию в разных регионах. Это оставляет многие регионы без эффективных средств для защиты от дезинформации. В данной работе мы предлагаем "анекдотическое ред-теминг" (anecdoctoring) — методику, которая автоматически генерирует атакующие запросы в различных языках и культурах. Мы создаем наборы данных нефактурных утверждений из разных стран и языков, чтобы сформировать универсальный подход к защите от дезинформации. ## Метод Мы используем метод анекдотического ред-теминга, который состоит из нескольких этапов. В начале мы собираем нефактурные утверждения из популярных факт-чеккинг-сайтов в трех языках (английский, испанский, и хинди) и двух регионах (США и Индия). Эти утверждения агрегируются в кластеры, основываясь на общих темах и факторных моделях. Затем, для каждого кластера мы создаем знаний граф, который включает в себя связанные с ним факты и контекст. Эти знаний графы используются для обучения атакующей генерирующей модели ИИ, которая генерирует адверские запросы к модели. Мы проверяем эффективность нашего подхода с помощью тестов на различных моделях, включая GPT-3 и другие текстовые генераторы. Мы измеряем успешность атаки на основе вероятности ложности и полноты ответов. ## Результаты Мы проводим ряд экспериментов, чтобы проверить то, насколько эффективно работает наш подход. Мы протестировали наши методы на нефактурных утверждениях из разных регионов и языков. Мы обнаружили, что наш метод показывает высокую успешность атаки, значительно превосходя методы, основанные на пару-пробегах. Также мы обнаружили, что наш подход дает более подробный анализ ложных утверждений, позволяя понять, почему они считаются ложными. ## Значимость Наш подход имеет широкие применения в области защиты от дезинформации. Он может использоваться для создания эффективных средств мониторинга и защиты от ложных утверждений

Annotation:

Disinformation is among the top risks of generative artificial intelligence (AI) misuse. Global adoption of generative AI necessitates red-teaming evaluations (i.e., systematic adversarial probing) that are robust across diverse languages and cultures, but red-teaming datasets are commonly US- and English-centric. To address this gap, we propose "anecdoctoring", a novel red-teaming approach that automatically generates adversarial prompts across languages and cultures. We collect misinformation ...

ID: 2509.19143v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Implicit Behavioral Alignment of Language Agents in High-Stakes Crowd Simulations

2025-09-24

Авторы:

Yunzhe Wang, Gale M. Lucas, Burcin Becerik-Gerber, Volkan Ustun

## Контекст Появление языковоориентированных генерирующих агентов сильно изменило возможности социальных симуляций в широких областях, от обучения интерперсональных навыков до формирования политических решений. Однако в этих симуляциях часто наблюдается отклонение поведения генерирующих агентов от реальных данных и ожиданий экспертов. Это проблема, известная как **Behavior-Realism Gap**, становится важной темой для исследований, так как несоответствие между агентским поведением и реальностью может привести к ошибочным выводам и неэффективным решениям в критически важных ситуациях. Наша мотивация заключается в создании методологии, которая улучшит реализм и надежность поведения генерирующих агентов в критически важных ситуациях. ## Метод Для решения проблемы Behavior-Realism Gap мы представляем **Persona-Environment Behavioral Alignment (PEBA)** — новую теоретическую модель, которая визуализирует поведение как функцию личности и окружения. PEBA формулируется как задача соответствия распределений, что позволяет адаптировать поведение генерирующих агентов к реальным данным. Для реализации мы предлагаем **PersonaEvolve (PEvo)**, алгоритм на основе Large Language Models (LLM), который итеративно оптимизирует субъективные характеристики агентов, чтобы добиться более реалистичного поведения. Основные элементы PEvo включают: - **Принцип адаптации**: итеративное уточнение личностных характеристик для достижения соответствия распределению реальности. - **Окружение как фактор**: интеграция контекста окружения для более естественного поведения. - **Оптимизация динамических сценариев**: адаптация поведения к изменению условий симуляции. ## Результаты Мы проверили PEvo в симуляции активного штурма с помощью специально разработанной среды. Эксперименты показали следующие результаты: - **Снижение распределенного отклонения**: PEvo достиг 84% среднего снижения распределенного отклонения по сравнению с ситуацией без управления поведением. - **Превосходство перед базовыми методами**: PEvo показал 34% лучшую реалистичность по сравнению с алгоритмами, основанными на эксплицитных инструкциях. - **Устойчивость и гибкость**: рефинированные личности агентов показали высокую общим поведением в новых, схожих ситуациях. Эти результаты доказывают, что PEvo не только улучшает реализм поведения, но и делает его более надежным в критически важных ситуациях. ## Значимость Предложенный подход может быть применен в следующих областях: - **Обучение интерперсональных навыков**: где реалистичное поведение генерирующих агентов является ключевым для эффективности. - **Политическое решающее процесс**: где реа

Annotation:

Language-driven generative agents have enabled large-scale social simulations with transformative uses, from interpersonal training to aiding global policy-making. However, recent studies indicate that generative agent behaviors often deviate from expert expectations and real-world data--a phenomenon we term the Behavior-Realism Gap. To address this, we introduce a theoretical framework called Persona-Environment Behavioral Alignment (PEBA), formulated as a distribution matching problem grounded...

ID: 2509.16457v1 cs.CL, cs.AI, cs.CY

arXiv PDF

1
2
11
12
13
14
15
20
21

Показано 121 - 130 из 208 записей