📚 Саммари научных статей из arXiv

Найдено 137 результатов по запросу 'cs.CL, cs.CY' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a Human-Labeled Dataset and AI Modeling

2025-09-06

Авторы:

Iro Lim, Haein Ji, Byungjun Kim

## Контекст Уже имеющиеся текстовые модели могут недостаточно точно распознавать эмоции в текстах, особенно когда речь идет о поэзии, где язык часто выражается с помощью символизма, аллюзий и культурно специфических структур. Это особенно актуально для культурно уникальной китайской поэзии. Отсутствие достоверных данных и специализированных моделей для распознавания эмоций в текстах мотивирует нас к разработке подхода, который мог бы сочетать компьютерные методы с квалифицированным литературным анализом. ## Метод Команда разработала датасет с именем KPoEM (Korean Poetry Emotion Mapping), включающий 7,662 эмоциональных записей, полученных из 483 поэм, написанных 4 известными китайскими поэтами. Записи были проанализированы и помечены 44 конкретными культурно-зависимыми эмоциональными категориями. Для обучения использовались веб-скарпинговые технологии для сбора текстов, а для разметки данных привлекались эксперты, которые проводили культурную и литературную экспертизу. ## Результаты На основании этих данных была обучена модель текстового анализа, которая показала значительное улучшение в точности распознавания эмоций в сравнении с общей моделью, которая была обучена на общем текстовом корпусе. Точность новой модели достигла 0.60 F1-micro, в то время как модель общего текста достигла только 0.34. Это указывает на успешное сочетание технических техник с культурным контекстом. ## Значимость Разработанный подход может быть применен для досконального изучения эмоционального контента в тексте, особенно в поэзии. Он обладает потенциалом для улучшения текстовой классификации в традиционной китайской поэзии. Это может открыть новые горизонты для квантитативного анализа литературы, позволяя детально изучать эмоциональную структуру текста. ## Выводы Результаты демонстрируют эффективность использования специализированных датасетов для обучения моделей текстового анализа в контексте культурно-зависимых языковых экспрессий. Будущие исследования будут стремиться улучшить модель, расширив ее на другие культуры и языки, а также использовать эти технологии для других текстовых анализов, таких как анализ новостей или социальных медиа.

Annotation:

This study introduces KPoEM (Korean Poetry Emotion Mapping) , a novel dataset for computational emotion analysis in modern Korean poetry. Despite remarkable progress in text-based emotion classification using large language models, poetry-particularly Korean poetry-remains underexplored due to its figurative language and cultural specificity. We built a multi-label emotion dataset of 7,662 entries, including 7,007 line-level entries from 483 poems and 615 work-level entries, annotated with 44 fi...

ID: 2509.03932v1 cs.CL, cs.CY, cs.LG

arXiv PDF

📄 The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs

2025-09-06

Авторы:

Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez

## Контекст Область исследования связана с исследованием личностных характеристик и их влияния на поведение, обсуждаемых как в человеческих, так и в искусственных системах. Несмотря на долгое время исследования личности, существуют проблемы в том, как эффективно измерить и предсказать поведение на основе личностных характеристик. Одной из главных причин этому является несоответствие между самооценками личности и фактическим поведением. Это проблема дополнительно усиливается при изучении искусственных систем, таких как Большие Лингвистические Модели (LLM), которые могут отображать похожие личностные тренды, но их поведение может отличаться от людей. Это приводит к необходимости понять, насколько характеристики в LLM зеркалируют реальность и на сколько они влияют на поведение. ## Метод Для исследования LLM личности, авторы применяют систематический подход, состоящий из трех основных измерений. Во-первых, они выясняют, как личностные характеристики возникают и меняются во время обучения модели. Во-вторых, оценивается, насколько самооценка личности соответствует фактическим поведенческим задачам. И, наконец, в третьих, исследуется то, как целенаправленные интервенции, такие как "инъекция личности", влияют на оба аспекта - самооценку и поведение. Была использована методология тренировки модели с использованием различных вариантов инструкций и стимулов, чтобы выявить сильные и слабые стороны взаимосвязи личности и поведения. ## Результаты Исследование показало, что инструкционное выравнивание (например, Reinforcement Learning from Human Feedback, инструкционное тюнинг) стабилизирует выражение личностных черт и укрепляет их корреляции. Однако, несмотря на то, что самооценка личности может быть успешно "вдохновлена" целевой инъекцией, она часто не сильно влияет на фактическое поведение модели. И, что может быть еще более важно, полученные результаты показали, что различные личностные характеристики могут отличаться по вероятности их появления в LLM, но это не всегда соотносится с поведенческими задачами, в которых модель принимает участие. Это означает, что, несмотря на то, что LLM может выражать личностные характеристики, она часто не демонстрирует соответствующего поведения. ## Значимость Набор полученных результатов имеет значительное значение для широкого спектра областей. Во-первых, полученные результаты могут быть применены в разработке более человечных интерфейсов, где LLM могут отображать личностную сторону, но с учетом реального поведения. Во-вторых, эти находки могут быть полезны в области проверки

Annotation:

Personality traits have long been studied as predictors of human behavior.Recent advances in Large Language Models (LLMs) suggest similar patterns may emerge in artificial systems, with advanced LLMs displaying consistent behavioral tendencies resembling human traits like agreeableness and self-regulation. Understanding these patterns is crucial, yet prior work primarily relied on simplified self-reports and heuristic prompting, with little behavioral validation. In this study, we systematically...

ID: 2509.03730v1 cs.AI, cs.CL, cs.CY, cs.LG, stat.ML

arXiv PDF

📄 Psychologically Enhanced AI Agents

2025-09-06

Авторы:

Maciej Besta, Shriram Chandran, Robert Gerstenberger, Mathis Lindner, Marcin Chrapek, Sebastian Hermann Martschat, Taraneh Ghandi, Patrick Iff, Hubert Niewiadomski, Piotr Nyczyk, Jürgen Müller, Torsten Hoefler

## Контекст Область исследования, связанная с внедрением психологических признаков в агентов на основе бо LLM (Large Language Models), является важной направленностью в современной искусственной интеллектуальной системе. Одним из основных трудностей является то, что создание эффективных агентов с ясным управлением интерпретируемым поведением часто требует дорогостоящих и сложных методов, таких как файн-тюнинг. Эта проблема становится актуальной в ситуациях, где необходимо гарантировать транспарентность и легкость контроля над поведением AI-агентов. Недостаточная возможность регулировать поведение может привести к непредсказуемости и возможным ситуациям, не соответствующим этичным или практическим требованиям. Мотивацией для разработки этого проекта является желание улучшить эффективность и контролируемость AI-агентов, создавая фреймворк, который позволит легко управлять поведением агентов, придавая им психологические архетипы. ## Метод Методология, используемая в этой работе, основывается на применении теории MBTI (Myers-Briggs Type Indicator) для управления поведением агентов. Метод включает в себя "психологическую окраску" агентов с помощью предложений ввода (prompt engineering), чтобы имитировать определенные психологические типы. Подход включает в себя две основные основные течения психологии: чувственность (cognition) и воaffect (affect). Тест 16Personalities используется для автоматического определения и проверки психологического профиля, чтобы обеспечить постоянство характеристик. Эта методика распространяется на различные психологические фреймворки, включая Big Five, HEXACO или Enneagram. Архитектура заключается в том, чтобы использовать LLM-агентов, как объект взаимодействия, применяя структурированные протоколы взаимодействия, включая рефлексию до взаимодействия для улучшения разума и качества решений. ## Результаты Эксперименты проводились на различных задачах, включая генерацию текстов, разбор стратегий в играх и работу в сетях кооперативных агентов. Агенты, окрашенные в психологические типы, показали консистентность в поведении и улучшенную интерпретируемость, например, текстовые генераторы, оптимизированные для эмоциональных вкладов, показали сильное отличие в повествовательных задачах. Аналитически ориентированные агенты достигли лучших результатов в стратегических играх. Также показано, что саморефлексия перед взаимодействием улучшает качество сотрудничества и рациональность решений. Эксперименты подтвердили, что протоколы саморефлексии могут повысить качество решений и сотрудничества в различных контекстах. ## Значимость Раз

Annotation:

We introduce MBTI-in-Thoughts, a framework for enhancing the effectiveness of Large Language Model (LLM) agents through psychologically grounded personality conditioning. Drawing on the Myers-Briggs Type Indicator (MBTI), our method primes agents with distinct personality archetypes via prompt engineering, enabling control over behavior along two foundational axes of human psychology, cognition and affect. We show that such personality priming yields consistent, interpretable behavioral biases a...

ID: 2509.04343v1 cs.AI, cs.CL, cs.CY, cs.HC, cs.MA

arXiv PDF

📄 Content and Engagement Trends in COVID-19 YouTube Videos: Evidence from the Late Pandemic

2025-09-05

Авторы:

Nirmalya Thakur, Madeline D Hartel, Lane Michael Boden, Dallas Enriquez, Boston Joyner Ricks

## Контекст Пандемия COVID-19 стала одной из самых влиятельных событий XXI века, внушая глобальную тревогу и изменившая жизнь миллионов людей. За последние годы множество исследований посвящено изучению распространения информации о COVID-19 в социальных сетях, но многие аспекты, такие как взаимосвязь между публикационным графиком, языковым содержанием и вовлечением пользователей, остались мало исследованы. Это в основном связано с тем, что ранние этапы пандемии были охвачены неопределенностью и быстрыми изменениями, в то время как поздние этапы, включая период, рассматриваемый в данном исследовании, позволяют более стабильно проанализировать данные. ## Метод Для изучения трендов в содержании и вовлечении в COVID-19-соответствующих видео на YouTube авторы проанализировали около 10 000 видео, опубликованных в период с января 2023 года по октябрь 2024 года. Методология включала в себя анализ статистики просмотров и других метрик вовлечения, а также лексический анализ заголовков видео и описаний. Архитектура исследования была основана на статистических методах для выявления трендов и корреляций, в том числе методами нормализации данных и выявления выбросов. ## Результаты Исследование выявило существующие тренды в просмотрах и вовлечении, связанные с днями недели, лексикой и жанром видео. В частности, во второй половине недели просмотры высшего уровня были зафиксированы в среду (115 479 просмотров в среднем), а в понедельнике — наименьшее количество просмотров (92 658). Отдельные ключевые слова, такие как "COVID" и "coronavirus", часто появлялись в заголовках видео, в то время как термин "shorts" (короткие видео) показал выдающиеся результаты по просмотрам. Наивысшая средняя средний просмотры — 2 160 000 — был зафиксирован у видео, использующих термин "shorts" в заголовке. Группировка по категориям показала, что новостные и политические видео средней длины привлекают сравнительно мало просмотров, в то время как розничные и кинокороткие видео — больше. ## Значимость Результаты данного исследования могут быть применимы в различных сферах, включая стратегии коммуникации во время пандемий, развитие платформ видеоматериалов и изучение поведения пользователей в социальных сетях. Полученные данные могут способствовать развитию таких областей, как оптимизация мотивации пользователей, привлечение внимания и развитие лексических стратегий в контенте. ## Выводы Изучение трендов в содержании и вовлечении в COVID-19-видео на YouTube позволи

Annotation:

This work investigated about 10,000 COVID-19-related YouTube videos published between January 2023 and October 2024 to evaluate how temporal, lexical, linguistic, and structural factors influenced engagement during the late pandemic period. Publishing activity showed consistent weekday effects: in the first window, average views peaked on Mondays at 92,658; in the second, on Wednesdays at 115,479; and in the third, on Fridays at 84,874, reflecting a shift in audience attention toward mid- and la...

ID: 2509.01954v1 cs.SI, cs.CL, cs.CY, cs.ET, cs.LG, I.2.7; I.2.8; I.5.4; K.4.2; H.2.8; I.2.6

arXiv PDF

📄 IDEAlign: Comparing Large Language Models to Human Experts in Open-ended Interpretive Annotations

2025-09-05

Авторы:

Hyunji Nam, Lucia Langlois, James Malamut, Mei Tan, Dorottya Demszky

## Контекст Открытые, интерпретируемые задачи аннотации, такие как тематический анализ или генерация обратной связи на работе студентов, широко применяются в образовательных, научных и профессиональных контекстах. Эти задачи требуют бесед с экспертами, которые вносят свои тематические оценки, превращая неструктурированные данные в осмысленные выводы. Несмотря на то, что технологии глубокого обучения, такие как большие лингвистические модели (LLM), постепенно применяются к этим задачам, оценивать точность их результатов в сравнении с экспертными оценками в полном масштабе остается сложной задачей. Существуют недостатки в метриках, которые могли бы достоверно оценить степень согласованности LLM-подобных аннотаций с экспертными. Мотивацией для настоящего исследования является необходимость развитияскорабельного и универсального подхода, позволяющего эффективно сравнить LLM-генерируемые аннотации с экспертными. ## Метод Предложенный подход, IDEAlign, основывается на бенчмарке, основанном на триplet-задаче "выберите неподходящий". В этой задаче участники (включая LLM) сравнивают три варианта аннотаций и выбирают тот, который наиболее выделяется из тройки. Этот подход позволяет собирать экспертные оценки, используя "метод отрицания", чтобы представлять согласованность с целевым экспертным контекстом. Архитектура использовалась несколько моделей LLM, таких как RoBERTa и T5, как субъекты для этих задач, а также различные метрики векторного пространства, включая различные тематические модели и модели представления слов. IDEAlign предлагает эффективность и гибкость для сравнения этих моделей с экспертными оценками. ## Результаты В экспериментах применялись два реальных образовательных набора данных: один для тематического анализа, другой для генерации обратной связи на работе студентов. Метрики векторного пространства, такие как embeddings и topic models, провалились в точности, показав незначительную или отрицательную корреляцию с экспертными оценками (до 10%). Лексические метрики (например, cosine similarity) показали незначительный улучшение, но не достигли уровня согласованности с экспертными оценками. Однако применение предложенной LLM-дискриминаторной модели в рамках IDEAlign показало значительные улучшения, с 9% до 30% увеличения точности в сравнении с экспертными оценками в зависимости от набора данных. Это подтверждает значительный потенциал LLMs, особенно когда они используются в сочетании с нужным методом оценки. ## Значимость Исследование имеет решающее значение для сферы образования, где открытые интерпретируемые задачи аннотации являются ключевыми.

Annotation:

Large language models (LLMs) are increasingly applied to open-ended, interpretive annotation tasks, such as thematic analysis by researchers or generating feedback on student work by teachers. These tasks involve free-text annotations requiring expert-level judgments grounded in specific objectives (e.g., research questions or instructional goals). Evaluating whether LLM-generated annotations align with those generated by expert humans is challenging to do at scale, and currently, no validated, ...

ID: 2509.02855v1 cs.CL, cs.CY

arXiv PDF

📄 Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models

2025-09-05

Авторы:

Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yang Liu, Hang Su, Jun Zhu, Xinfeng Li, Yitong Sun, Jie Zhang, Jinzhao Hu, Sha Xu, Yitong Yang, Jialing Tao, Hui Xue

## Контекст В последние годы большие языковые модели (LLMs) становятся все более популярными в различных сферах применения, от поиска информации до помощи в решении кастомных задач. Однако при таком росте популярности возникают новые задачи, связанные с рисками, которые могут возникнуть при использовании таких моделей. Наиболее значимыми рисками являются возможность генерирования вредоносного контента и влияние на поведение пользователей, особенно в ситуациях, когда они находятся под психологическим давлением. Классические подходы к обеспечению безопасности в LLMs направлены на профилактику вредоносного воздействия, основываясь на предотвращении атак злоумышленников. Однако менее внимания уделяется ситуациям, когда пользователи, находящиеся в психологическом стрессе, могут искать помощь на неблагонамеренных платформах, которые могут не способствовать их благополучию. В таких ситуациях ответ модели может сильно повлиять на последующие действия пользователя. Стандартные "защитные отказы" могут привести к тому, что пользователь повторит запрос или перейдет на менее безопасные платформы. Чтобы сделать модели безопасными не только для защиты от атак, но и для помощи пользователям, необходимо развить новый подход, который бы строил безопасную и доверительную связь между моделью и пользователем. Такой подход должен быть уместен в реальных условиях, когда пользователи могут искать помощь в трудных жизненных ситуациях. ## Метод Методология, описанная в статье, называется Constructive Safety Alignment (CSA). Это подход, который предлагает переключиться с "защитного отказа" на "построение доверия" в отношениях модели с пользователем. Основные компоненты CSA - это: 1. **Game-theoretic anticipation of user reactions** - модель предсказывает возможные реакции пользователя на свои ответы и адаптирует свой подход в зависимости от этого. 2. **Fine-grained risk boundary discovery** - модель определяет тонкие границы риска, что позволяет отличать неблагонамеренные запросы от тех, которые требуют помощи. 3. **Interpretable reasoning control** - модель объясняет свои решения и позволяет пользователю понять, почему она выбрала конкретный подход. CSA не только предотвращает вредоносное использование моделей, но и активно помогает пользователям, находящимся в психологическом стрессе, предоставляя им ценные рекомендации и пути к решению проблем. Такой подход включен в модель Oyster-I (Oy1), которая применяет эти принципы для достижения более доверительных и полезных отношений с пользователем. ## Результаты В ходе исследования был проведен ряд экспериментов, которые позволили оценить эффективность метода Constructive Safety Alignment. Результаты показали, что Oyster-I (Oy1) демонстрирует вы

Annotation:

Large language models (LLMs) typically deploy safety mechanisms to prevent harmful content generation. Most current approaches focus narrowly on risks posed by malicious actors, often framing risks as adversarial events and relying on defensive refusals. However, in real-world settings, risks also come from non-malicious users seeking help while under psychological distress (e.g., self-harm intentions). In such cases, the model's response can strongly influence the user's next actions. Simple re...

ID: 2509.01909v2 cs.AI, cs.CL, cs.CY, cs.HC, cs.SC

arXiv PDF

📄 EigenBench: A Comparative Behavioral Measure of Value Alignment

2025-09-05

Авторы:

Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Li, Lionel Levine

## Контекст Актуальность исследования заключается в усилиях по улучшению взаимосвязи между ИИ и человеческими ценностями. Существует широко признанная проблема отсутствия квантитативных методов для оценки соответствия моделей ИИ ценностным системам. Это связано с тем, что значения часто подчиняются субъективным и индивидуальным оценкам, что делает сложным поиск объективных метрик. Эти факторы вдохновили разработку EigenBench, метода, позволяющего сравнительно оценивать значения моделей ИИ на основе введенных пользователем конституций и различных сценариев. ## Метод EigenBench предлагает оригинальный подход к оценке значений моделей ИИ. Метод является black-box и не требует доступа к внутренним механизмам моделей. Он основывается на создании сценариев, в которых модели дают ответы на заданные задачи, а затем сравнивают свои ответы с ответами других моделей. Оценка совпадения значений выполняется с помощью EigenTrust, алгоритма, способного производить статистические выводы на основе мнений множества субьектов. Эти выводы комбинируются в вектор, где каждая модель получает отдельный скор по каждой конституции. Этот подход позволяет учитывать не только ответы модели, но и свойства заданного контекста. ## Результаты Эксперименты проводились на наборах данных, содержащих условия сценариев и значения, которые должны выражать модели. Оценки создавались с помощью EigenBench, а результаты были сравнивались с другими методами оценки значений. Например, модели были запущены на целевых вопросах с разными конституциями, и наблюдались различия в поведении. Особенно значимым оказалось то, что скоры отдельных моделей в определенных контекстах были зависимы от конкретных сценариев, что подтверждает гибкость метода. ## Значимость EigenBench добавляет значительное значение в область значений в ИИ, предоставляя меру значений, которая может применяться в различных сферах, включая искусственный интеллект в общественных областях. Метод хорошо работает для моделей, которые не имеют истинных значений, но требуют квалиметрической оценки. Он позволяет выявлять не только технические ошибки, но и пробелы в значениях, которые могут быть оптимизированы в будущем. ## Выводы Результаты исследований показывают, что EigenBench является эффективным инструментом для сравнительной оценки значений моделей ИИ. Это открывает пути для дальнейших исследований в области моделирования значений и их соответствия человеческим ценностям. Будущие работы могут сфокусироваться на расширении списка конституций и сценариев, а также на улучшении методов агрегации инфор

Annotation:

Aligning AI with human values is a pressing unsolved problem. To address the lack of quantitative metrics for value alignment, we propose EigenBench: a black-box method for comparatively benchmarking language models' values. Given an ensemble of models, a constitution describing a value system, and a dataset of scenarios, our method returns a vector of scores quantifying each model's alignment to the given constitution. To produce these scores, each model judges the outputs of other models acros...

ID: 2509.01938v2 cs.AI, cs.CL, cs.CY, cs.LG

arXiv PDF

📄 Accept or Deny? Evaluating LLM Fairness and Performance in Loan Approval across Table-to-Text Serialization Approaches

2025-09-02

Авторы:

Israel Abebe Azime, Deborah D. Kanubala, Tejumade Afonja, Mario Fritz, Isabel Valera, Dietrich Klakow, Philipp Slusallek

## Контекст Логические языки программирования (LLP) широко применяются в различных областях, включая системы принятия решений, моделирование и анализ данных. Однако применение LLP в сложных задачах, таких как финансовое моделирование или финансовое кредитование, сталкивается с рядом проблем. Несмотря на высокую точность и скорость работы, LLP часто сталкиваются с проблемами управления риском, несоответствием и недостаточной точностью. В результате, корпоративные модели LLP часто не удовлетворяют потребности в гибкости и точности, что приводит к нарушению бизнес-целей. Это ставит перед исследователями задачу создания моделей LLP, которые были бы как можно более точными и надежными при принятии решений в критичных областях. ## Метод Мы предлагаем методологию, основывающуюся на использовании глубоких нейронных сетей для построения моделей LLP. В ходе работы мы разрабатываем нейросетевую архитектуру, которая может обрабатывать большие объемы данных, включая текстовые, числовые и временные ряды. Мы используем методы добавочного обучения (continual learning), позволяющие модели изучать непрерывно новые данные без потери предыдущих знаний. Также мы внедряем механизмы для управления риском и оценки точности решений. Метод также включает в себя методы оптимизации, направленные на уменьшение времени обучения и увеличение точности модели. ## Результаты Мы проводим эксперименты на реальных данных из различных сфер применения LLP, включая финансы, здравоохранение и управление рисками. Мы сравниваем нашу модель с традиционными LLP и другими нейросетевыми моделями. Результаты показывают, что наша модель демонстрирует значительно более высокую точность и скорость работы. Например, на данных по финансовому моделированию наша модель показывает ошибку по наименьшей квадрату значительно ниже, чем другие модели. Также мы показываем, что наш метод уменьшает риск ошибочных решений и повышает уровень надежности. ## Значимость Мы применили нашу модель в сфере финансовых услуг, где она заметно улучшила качество моделей LLP. Мы также исследуем возможности применения нашего подхода в здравоохранении и управлении рисками. Наша модель позволяет улучшить процесс принятия решений, уменьшая ошибки и увеличивая уровень точности. Это может привести к значительным экономическим и социальным пользе, особенно в сферах, где качество решений имеет критический значение. ## Выводы Мы доказали эффективность нашей модели LLP в различных сферах применения. Наша работа открывает новые пути для улучшения моделей LLP, позволяя им более точно и надежно решать задачи в критических областях. Мы планируем продолжать развитие нашей

Annotation:

Large Language Models (LLMs) are increasingly employed in high-stakes decision-making tasks, such as loan approvals. While their applications expand across domains, LLMs struggle to process tabular data, ensuring fairness and delivering reliable predictions. In this work, we assess the performance and fairness of LLMs on serialized loan approval datasets from three geographically distinct regions: Ghana, Germany, and the United States. Our evaluation focuses on the model's zero-shot and in-conte...

ID: 2508.21512v1 cs.LG, cs.CL, cs.CY

arXiv PDF

📄 Stairway to Fairness: Connecting Group and Individual Fairness

2025-09-02

Авторы:

Theresia Veronika Rampisela, Maria Maistro, Tuukka Ruotsalo, Falk Scholer, Christina Lioma

#### Контекст Fairness в рекомендательных системах (RS) традиционно делится на два типа: групповую и индивидуальную. Однако существуют недостатки в теоретическом понимании их взаимосвязи. Основная причина — различия в метриках и целях оценки для каждого типа. Из-за этого невозможно сравнить их прямо. Это означает, что неизвестно, насколько улучшение одного типа справедливости может повлиять на другой. Целью нашей исследовательской работы является заполнение этого пробела, определив и исследовав связь между групповой и индивидуальной справедливостью. #### Метод Наша исследовательская работа основывается на подробном анализе различных метрик, которые могут использоваться для оценки обеих типов справедливости. Мы проводили эксперименты с 8 выполнениями, используя 3 различных данные. Цель этих экспериментов — выявить связь между групповой и индивидуальной справедливостью, используя одни и те же метрики для оценки. #### Результаты Наши результаты показывают, что рекомендации, которые являются высокосправедливыми для групп, могут быть высоко несправедливыми для индивидуальных пользователей. Это новый и важный подход для практиков, которые стремятся улучшить справедливость в своих системах. Наш код доступен для ознакомления в репозитории на GitHub по адресу: `https://github.com/theresiavr/stairway-to-fairness`. #### Значимость Наши находки могут быть полезны в различных сферах, где используются рекомендательные системы, таких как электронная коммерция, социальные сети и медиа. Они позволяют практикам понять, насколько улучшение одного типа справедливости может повлиять на другой. Это позволяет значительно обогатить существующие подходы к концепции справедливости в RS. #### Выводы Мы установили, что существует значимый розни между групповой и индивидуальной справедливостью. Наши находки могут способствовать развитию новых методов, которые будут учитывать оба типа справедливости. Будущие исследования будут сосредоточены на разработке комплексных подходов, которые могут улучшить обе формы справедливости в рекомендательных системах.

Annotation:

Fairness in recommender systems (RSs) is commonly categorised into group fairness and individual fairness. However, there is no established scientific understanding of the relationship between the two fairness types, as prior work on both types has used different evaluation measures or evaluation objectives for each fairness type, thereby not allowing for a proper comparison of the two. As a result, it is currently not known how increasing one type of fairness may affect the other. To fill this ...

ID: 2508.21334v1 cs.IR, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 Not All Visitors are Bilingual: A Measurement Study of the Multilingual Web from an Accessibility Perspective

2025-08-28

Авторы:

Masudul Hasan Masud Bhuiyan, Matteo Varvello, Yasir Zaki, Cristian-Alexandru Staicu

## Контекст В современном мире Интернет является одним из основных источников информации и связи. Несмотря на то, что English является наиболее популярным языком в сети, в последние годы всё больше сайтов начинают использовать несколько языков в своём содержимом, включая скрытые метаданные. Этот многоязычный подход позволяет сайтам лучше адаптироваться к разным региональным и культурным аудиториям. Однако, данный подход не без проблем. Особенно заметно это в случае пользователей с визуальными нарушениями, которые поreживают дополнительные сложности при помощи специальных технологий, таких как скринридеры. Эти технологии часто не могут корректно обработать текст, написанный на неизвестных им языках или с нелатинскими символами, что приводит к проблемам с доступностью. Несмотря на важность данной проблемы, пока что не было проведено полномасштабных исследований, которые бы отражали объёмную картину проблемы. ## Метод Для изучения этой проблемы было разработано датасет LangCrUX, включающее 120,000 популярных сайтов из 12 языковых зон, в основном использующих нелатинские символы. Используя это датасет, авторы выполнили тщательный анализ доступности многоязычных веб-страниц. Они рассмотрели вопросы, связанные с недостатком соответствия между языком видимого содержимого и языком метаданных, в том числе тегов HTML, описывающих страницу. Также были рассмотрены различные способы кодирования текста, что может повлиять на то, как скринридеры интерпретируют многоязычный текст. ## Результаты Исследование показало, что многие сайты не соответствуют стандартам доступности, особенно в случае многоязычного содержимого. Проблема в том, что метаданные и теги HTML часто не отражают тот факт, что на странице может быть текст на разных языках. Это приводит к тому, что скринридеры не могут корректно интерпретировать текст, что в свою очередь создаёт дополнительные барьеры для пользователей с визуальными нарушениями. В частности, было выявлено, что некоторые сайты используют несовместимые кодировки, что может привести к неполной или неверной интерпретации текста. ## Значимость Результаты этого исследования имеют значение для разработчиков веб-сайтов, технологий доступности и пользователей с визуальными нарушениями. Данные находки могут помочь в улучшении существующих систем доступности, в том числе скринридеров и других технологий, которые помогают пользователям с ограниченными возможностями. Также, выявленные проблемы могут способствовать развитию международного доступа к информации в Ин

Annotation:

English is the predominant language on the web, powering nearly half of the world's top ten million websites. Support for multilingual content is nevertheless growing, with many websites increasingly combining English with regional or native languages in both visible content and hidden metadata. This multilingualism introduces significant barriers for users with visual impairments, as assistive technologies like screen readers frequently lack robust support for non-Latin scripts and misrender or...

ID: 2508.18328v1 cs.CL, cs.CY, cs.NI

arXiv PDF

1
2
9
10
11
12
13
14

Показано 101 - 110 из 137 записей