📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Mingmeng Geng, Thierry Poibeau
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
With the widespread use of large language models (LLMs), many researchers
have turned their attention to detecting text generated by them. However, there
is no consistent or precise definition of their target, namely "LLM-generated
text". Differences in usage scenarios and the diversity of LLMs further
increase the difficulty of detection. What is commonly regarded as the
detecting target usually represents only a subset of the text that LLMs can
potentially produce. Human edits to LLM outputs, ...
📄 SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors
2025-10-22Авторы:
Tiancheng Hu, Joachim Baumann, Lorenzo Lupo, Nigel Collier, Dirk Hovy, Paul Röttger
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language model (LLM) simulations of human behavior have the potential
to revolutionize the social and behavioral sciences, if and only if they
faithfully reflect real human behaviors. Current evaluations are fragmented,
based on bespoke tasks and metrics, creating a patchwork of incomparable
results. To address this, we introduce SimBench, the first large-scale,
standardized benchmark for a robust, reproducible science of LLM simulation. By
unifying 20 diverse datasets covering tasks from ...
Авторы:
Alexander Brady, Tunazzina Islam
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Social media platforms play a pivotal role in shaping political discourse,
but analyzing their vast and rapidly evolving content remains a major
challenge. We introduce an end-to-end framework for automatically generating an
interpretable topic taxonomy from an unlabeled corpus. By combining
unsupervised clustering with prompt-based labeling, our method leverages large
language models (LLMs) to iteratively construct a taxonomy without requiring
seed sets or domain expertise. We apply this framew...
Авторы:
Faisal Hamman, Chenyang Zhu, Anoop Kumar, Xujun Peng, Sanghamitra Dutta, Daben Liu, Alfy Samuel
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
RAG systems are increasingly deployed in high-stakes domains where users
expect outputs to be consistent across semantically equivalent queries.
However, existing systems often exhibit significant inconsistencies due to
variability in both the retriever and generator (LLM), undermining trust and
reliability. In this work, we focus on information consistency, i.e., the
requirement that outputs convey the same core content across semantically
equivalent inputs. We introduce a principled evaluation...
Авторы:
Khalid Mehtab Khan, Anagha Kulkarni
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Identifying cultural capital (CC) themes in student reflections can offer
valuable insights that help foster equitable learning environments in
classrooms. However, themes such as aspirational goals or family support are
often woven into narratives, rather than appearing as direct keywords. This
makes them difficult to detect for standard NLP models that process sentences
in isolation. The core challenge stems from a lack of awareness, as standard
models are pre-trained on general corpora, leavi...
Авторы:
Xin Xu, Xunzhi He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Existing studies on bias mitigation methods for large language models (LLMs)
use diverse baselines and metrics to evaluate debiasing performance, leading to
inconsistent comparisons among them. Moreover, their evaluations are mostly
based on the comparison between LLMs' probabilities of biased and unbiased
contexts, which ignores the gap between such evaluations and real-world use
cases where users interact with LLMs by reading model responses and expect fair
and safe outputs rather than LLMs' p...
Авторы:
Lucio La Cava, Andrea Tagarelli
## Контекст
Одна из основных проблем с Large Language Models (LLMs) заключается в том, чтобы выравнять их беспристрастную продуктивность с целями и предпочтениями пользователей. Несмотря на то, что существуют методы, такие как Reinforcement Learning from Human Feedback (RLHF) и Direct Preference Optimization (DPO), эти подходы требуют больших объемов данных, дорогостоящей оптимизации и постоянной адаптации модели к конкретным задачам. Это приводит к значительным затратам времени и ресурсов. Для решения этой проблемы необходимо разработать метод, который бы становился более эффективным, гибким и менее дешевле, не требовал бы огромных вычислительных мощностей и мог бы использоваться в разных сценариях применения.
## Метод
Метод, предложенный в работе, называется **Preference alignment of Large Language Models via Residual Steering (PaLRS)**, и является тренировочно-свободным подходом. Он использует "резидуальные потоки" (residual streams), отражающие динамику нелинейных связей в модели, для извлечения легких в использовании векторов управления. Такие векторы могут быть применены во время инференса, чтобы направить модель на поведение, соответствующее предпочтениям пользователя. Метод требует сравнительно малого количества примеров (например, одного из сто до пользовательских предпочтений) для создания этих векторов управления. Это позволяет подстраивать модель под задачи и пользовательские требования без необходимости снова тренировать модель, а также обеспечивает высокую эффективность и гибкость.
## Результаты
Авторы проверили PaLRS на различных опен-сорсных LLMs, включая модели малого и среднего масштаба. На бенчмарк-задачах, таких как математическое разумание и генерация кода, модели с PaLRS-встраиваемыми векторами управления показали значительные улучшения в производительности. Эти модели сохранили свои общие качественные показатели, такие как гибкость и базовые функциональные возможности, не потеряв в общей точности и галости. Кроме того, PaLRS показала значительные экономии времени и ресурсов по сравнению с Direct Preference Optimization (DPO), в то же время оставаясь более эффективной и перспективной альтернативой.
## Значимость
Предлагаемый подход имеет широкие применения в области адаптации LLMs к пользовательским предпочтениям. Он может использоваться в сферах, где требуется высокая гибкость и эффективность в настройке моделей на особые задачи (например, генерация кода, медицинские задачи, специализированные задачи технического письма). Одним из преимуществ PaLRS является его тренировочно-свободный характер, который позволяет избежать времязатратных и ресурсоемких процессов оптимизации. Благодаря этому, PaLRS может быть широко использован в сценариях, где не
Annotation:
Preference alignment is a critical step in making Large Language Models
(LLMs) useful and aligned with (human) preferences. Existing approaches such as
Reinforcement Learning from Human Feedback or Direct Preference Optimization
typically require curated data and expensive optimization over billions of
parameters, and eventually lead to persistent task-specific models. In this
work, we introduce Preference alignment of Large Language Models via Residual
Steering (PaLRS), a training-free method t...
Авторы:
Abdullah Hashmat, Muhammad Arham Mirza, Agha Ali Raza
#### Контекст
С появлением Large Language Models (LLMs) в различных приложениях, важно обеспечить их справедливость и нейтральность во взаимодействии с различными пользователями. Однако, большинство LLMs разрабатываются и проверяются на данных, сфокусированных на западных стереотипах и языках, оставляя малозначимость для низкоресурсных языков и региональных контекстов. Это нарушает справедливость и эффективность моделей в региональном контексте. Работа PakBBQ, расширенного Bias Benchmark for Question Answering (BBQ), нацелена на решение этой проблемы. Она содержит более 214 шаблонов, 17180 QA-пар, охватывающих 8 категорий в 2 языках (английский и урду). В состав включено 8 стейт-биасов, включающих важные западные и региональные характеристики, такие как возраст, инвалидность, внешность, пол, социально-экономический статус, религиозные убеждения, региональная принадлежность и формальность языка.
#### Метод
Методология PakBBQ основывается на разработке шаблонов и QA-пар, отражающих региональные и культурные особенности. Множество нейтральных и негативно формулированных вопросов подвергались оценке в разных контекстах. Использовались несколько LLMs для оценки подвижности моделей по стейт-биасу. Эксперименты проводились с разными типами вопросов, чтобы изучить влияние фрейминга и нейтрализации стейт-биаса. Это дало возможность сравнить модели под влиянием неявной и явной дисамбигуации, чтобы продемонстрировать их устойчивость к различным формам вопросов.
#### Результаты
Опытные исследования показали следующие результаты: (i) увеличение точности в 12% при использовании дисамбигуации, (ii) наличие сильной биас-нейтрализации в урду по сравнению с английским, (iii) влияние на фрейминг, при котором отрицательно формулированные вопросы уменьшают стейт-биас. Эти результаты подтверждают важность разработки конкретных бенчмаров для региональных языков. Они также показывают, что простой фрейминг вопросов может сильно повлиять на результаты, помогая уменьшить биас в низкоресурсных языках.
#### Значимость
PakBBQ предлагает свой вклад в область создания справедливых и нейтральных моделей для низкоресурсных языков. Он может использоваться для тестирования LLMs на уровне биаса в региональных контекстах, таких как язык урду. Это решение может иметь значительный потенциал в области создания безопасных, справедливых и эффективных моделей для местных пользователей. Это также открывает пути для развития технологий повышения качества языковых моделей на уровне регионального образования.
#### Выводы
Работа
Annotation:
With the widespread adoption of Large Language Models (LLMs) across various
applications, it is empirical to ensure their fairness across all user
communities. However, most LLMs are trained and evaluated on Western centric
data, with little attention paid to low-resource languages and regional
contexts. To address this gap, we introduce PakBBQ, a culturally and regionally
adapted extension of the original Bias Benchmark for Question Answering (BBQ)
dataset. PakBBQ comprises over 214 templates, ...