📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 On the Detectability of LLM-Generated Text: What Exactly Is LLM-Generated Text?

2025-10-25

Авторы:

Mingmeng Geng, Thierry Poibeau

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

With the widespread use of large language models (LLMs), many researchers have turned their attention to detecting text generated by them. However, there is no consistent or precise definition of their target, namely "LLM-generated text". Differences in usage scenarios and the diversity of LLMs further increase the difficulty of detection. What is commonly regarded as the detecting target usually represents only a subset of the text that LLMs can potentially produce. Human edits to LLM outputs, ...

ID: 2510.20810v1 cs.CL, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

2025-10-22

Авторы:

Tiancheng Hu, Joachim Baumann, Lorenzo Lupo, Nigel Collier, Dirk Hovy, Paul Röttger

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language model (LLM) simulations of human behavior have the potential to revolutionize the social and behavioral sciences, if and only if they faithfully reflect real human behaviors. Current evaluations are fragmented, based on bespoke tasks and metrics, creating a patchwork of incomparable results. To address this, we introduce SimBench, the first large-scale, standardized benchmark for a robust, reproducible science of LLM simulation. By unifying 20 diverse datasets covering tasks from ...

ID: 2510.17516v2 cs.CL, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 Latent Topic Synthesis: Leveraging LLMs for Electoral Ad Analysis

2025-10-21

Авторы:

Alexander Brady, Tunazzina Islam

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Social media platforms play a pivotal role in shaping political discourse, but analyzing their vast and rapidly evolving content remains a major challenge. We introduce an end-to-end framework for automatically generating an interpretable topic taxonomy from an unlabeled corpus. By combining unsupervised clustering with prompt-based labeling, our method leverages large language models (LLMs) to iteratively construct a taxonomy without requiring seed sets or domain expertise. We apply this framew...

ID: 2510.15125v1 cs.CL, cs.AI, cs.CY, cs.LG, cs.SI

arXiv PDF

📄 Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards

2025-10-08

Авторы:

Faisal Hamman, Chenyang Zhu, Anoop Kumar, Xujun Peng, Sanghamitra Dutta, Daben Liu, Alfy Samuel

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

RAG systems are increasingly deployed in high-stakes domains where users expect outputs to be consistent across semantically equivalent queries. However, existing systems often exhibit significant inconsistencies due to variability in both the retriever and generator (LLM), undermining trust and reliability. In this work, we focus on information consistency, i.e., the requirement that outputs convey the same core content across semantically equivalent inputs. We introduce a principled evaluation...

ID: 2510.04392v1 cs.CL, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 AWARE, Beyond Sentence Boundaries: A Contextual Transformer Framework for Identifying Cultural Capital in STEM Narratives

2025-10-08

Авторы:

Khalid Mehtab Khan, Anagha Kulkarni

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Identifying cultural capital (CC) themes in student reflections can offer valuable insights that help foster equitable learning environments in classrooms. However, themes such as aspirational goals or family support are often woven into narratives, rather than appearing as direct keywords. This makes them difficult to detect for standard NLP models that process sentences in isolation. The core challenge stems from a lack of awareness, as standard models are pre-trained on general corpora, leavi...

ID: 2510.04983v2 cs.CL, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

2025-10-04

Авторы:

Xin Xu, Xunzhi He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Existing studies on bias mitigation methods for large language models (LLMs) use diverse baselines and metrics to evaluate debiasing performance, leading to inconsistent comparisons among them. Moreover, their evaluations are mostly based on the comparison between LLMs' probabilities of biased and unbiased contexts, which ignores the gap between such evaluations and real-world use cases where users interact with LLMs by reading model responses and expect fair and safe outputs rather than LLMs' p...

ID: 2510.00232v1 cs.CL, cs.AI, cs.CY, cs.LG

arXiv PDF

📄 Toward Preference-aligned Large Language Models via Residual-based Model Steering

2025-10-01

Авторы:

Lucio La Cava, Andrea Tagarelli

## Контекст Одна из основных проблем с Large Language Models (LLMs) заключается в том, чтобы выравнять их беспристрастную продуктивность с целями и предпочтениями пользователей. Несмотря на то, что существуют методы, такие как Reinforcement Learning from Human Feedback (RLHF) и Direct Preference Optimization (DPO), эти подходы требуют больших объемов данных, дорогостоящей оптимизации и постоянной адаптации модели к конкретным задачам. Это приводит к значительным затратам времени и ресурсов. Для решения этой проблемы необходимо разработать метод, который бы становился более эффективным, гибким и менее дешевле, не требовал бы огромных вычислительных мощностей и мог бы использоваться в разных сценариях применения. ## Метод Метод, предложенный в работе, называется **Preference alignment of Large Language Models via Residual Steering (PaLRS)**, и является тренировочно-свободным подходом. Он использует "резидуальные потоки" (residual streams), отражающие динамику нелинейных связей в модели, для извлечения легких в использовании векторов управления. Такие векторы могут быть применены во время инференса, чтобы направить модель на поведение, соответствующее предпочтениям пользователя. Метод требует сравнительно малого количества примеров (например, одного из сто до пользовательских предпочтений) для создания этих векторов управления. Это позволяет подстраивать модель под задачи и пользовательские требования без необходимости снова тренировать модель, а также обеспечивает высокую эффективность и гибкость. ## Результаты Авторы проверили PaLRS на различных опен-сорсных LLMs, включая модели малого и среднего масштаба. На бенчмарк-задачах, таких как математическое разумание и генерация кода, модели с PaLRS-встраиваемыми векторами управления показали значительные улучшения в производительности. Эти модели сохранили свои общие качественные показатели, такие как гибкость и базовые функциональные возможности, не потеряв в общей точности и галости. Кроме того, PaLRS показала значительные экономии времени и ресурсов по сравнению с Direct Preference Optimization (DPO), в то же время оставаясь более эффективной и перспективной альтернативой. ## Значимость Предлагаемый подход имеет широкие применения в области адаптации LLMs к пользовательским предпочтениям. Он может использоваться в сферах, где требуется высокая гибкость и эффективность в настройке моделей на особые задачи (например, генерация кода, медицинские задачи, специализированные задачи технического письма). Одним из преимуществ PaLRS является его тренировочно-свободный характер, который позволяет избежать времязатратных и ресурсоемких процессов оптимизации. Благодаря этому, PaLRS может быть широко использован в сценариях, где не

Annotation:

Preference alignment is a critical step in making Large Language Models (LLMs) useful and aligned with (human) preferences. Existing approaches such as Reinforcement Learning from Human Feedback or Direct Preference Optimization typically require curated data and expensive optimization over billions of parameters, and eventually lead to persistent task-specific models. In this work, we introduce Preference alignment of Large Language Models via Residual Steering (PaLRS), a training-free method t...

ID: 2509.23982v1 cs.CL, cs.AI, cs.CY, cs.LG, cs.NE

arXiv PDF

📄 PakBBQ: A Culturally Adapted Bias Benchmark for QA

2025-08-15

Авторы:

Abdullah Hashmat, Muhammad Arham Mirza, Agha Ali Raza

#### Контекст С появлением Large Language Models (LLMs) в различных приложениях, важно обеспечить их справедливость и нейтральность во взаимодействии с различными пользователями. Однако, большинство LLMs разрабатываются и проверяются на данных, сфокусированных на западных стереотипах и языках, оставляя малозначимость для низкоресурсных языков и региональных контекстов. Это нарушает справедливость и эффективность моделей в региональном контексте. Работа PakBBQ, расширенного Bias Benchmark for Question Answering (BBQ), нацелена на решение этой проблемы. Она содержит более 214 шаблонов, 17180 QA-пар, охватывающих 8 категорий в 2 языках (английский и урду). В состав включено 8 стейт-биасов, включающих важные западные и региональные характеристики, такие как возраст, инвалидность, внешность, пол, социально-экономический статус, религиозные убеждения, региональная принадлежность и формальность языка. #### Метод Методология PakBBQ основывается на разработке шаблонов и QA-пар, отражающих региональные и культурные особенности. Множество нейтральных и негативно формулированных вопросов подвергались оценке в разных контекстах. Использовались несколько LLMs для оценки подвижности моделей по стейт-биасу. Эксперименты проводились с разными типами вопросов, чтобы изучить влияние фрейминга и нейтрализации стейт-биаса. Это дало возможность сравнить модели под влиянием неявной и явной дисамбигуации, чтобы продемонстрировать их устойчивость к различным формам вопросов. #### Результаты Опытные исследования показали следующие результаты: (i) увеличение точности в 12% при использовании дисамбигуации, (ii) наличие сильной биас-нейтрализации в урду по сравнению с английским, (iii) влияние на фрейминг, при котором отрицательно формулированные вопросы уменьшают стейт-биас. Эти результаты подтверждают важность разработки конкретных бенчмаров для региональных языков. Они также показывают, что простой фрейминг вопросов может сильно повлиять на результаты, помогая уменьшить биас в низкоресурсных языках. #### Значимость PakBBQ предлагает свой вклад в область создания справедливых и нейтральных моделей для низкоресурсных языков. Он может использоваться для тестирования LLMs на уровне биаса в региональных контекстах, таких как язык урду. Это решение может иметь значительный потенциал в области создания безопасных, справедливых и эффективных моделей для местных пользователей. Это также открывает пути для развития технологий повышения качества языковых моделей на уровне регионального образования. #### Выводы Работа

Annotation:

With the widespread adoption of Large Language Models (LLMs) across various applications, it is empirical to ensure their fairness across all user communities. However, most LLMs are trained and evaluated on Western centric data, with little attention paid to low-resource languages and regional contexts. To address this gap, we introduce PakBBQ, a culturally and regionally adapted extension of the original Bias Benchmark for Question Answering (BBQ) dataset. PakBBQ comprises over 214 templates, ...

ID: 2508.10186v1 cs.CL, cs.AI, cs.CY, cs.LG

arXiv PDF