📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Mechanistic Interpretability with SAEs: Probing Religion, Violence, and Geography in Large Language Models

2025-09-24

Авторы:

Katharina Simbeck, Mariam Mahran

## Контекст Область исследования связана с механистической интерпретируемостью больших языковых моделей (LLM), которая направлена на определение и анализ внутренних представлений, используемых этими моделями. Несмотря на значительный интерес к биасам в текстовых моделях, большая часть исследований фокусировалась на гендерных и расовых аспектах, оставив менее изученным вопрос о роли религиозной идентичности в процессе обучения моделей. Эта статья рассматривает вопрос представления религии в LLMs и его связи с понятиями насилия и географии. Авторы используют методы механистической интерпретируемости и автокодирования на основе простоты (SAE), чтобы изучить внутренние активации моделей и выявить семантические зависимости в контекстах проблематичных запросов. ## Метод Для проведения исследования были использованы методы механистической интерпретируемости, в частности, анализ внутренних активаций моделей с помощью автокодирования на основе простоты (SAE). Авторы применяют Neuronpedia API для проведения экспериментов с 5 моделями языковых моделей, изучая как внутренние представления связаны с проблематичными запросами, связанными с религией, насилием и географией. Процесс анализа включал в себя измерение контекстной семантической зависимости между проблематичными фразами и внутренними активациями моделей. Выделенные модели включали LLM с разным размером и архитектурой, позволяя получить широкий представление о внутренних представлениях моделей в контексте проблемы. ## Результаты Исследование показало, что все исследованные религии демонстрируют высокий уровень внутренней когерентности внутри своих представлений. Однако наибольшую связь с проблематичными запросами, связанными с насилием, обнаружилось в отношении ислама. В то же время, географические представления моделей в целом отражают реальные демографические закономерности, что позволяет выделить как фактические данные, так и культурные стереотипы. Эти результаты помогли выявить как положительные характеристики моделей (точность в отображении реальных данных), так и отрицательные (внедрение культурных стереотипов). ## Значимость Полученные результаты имеют значительное значение для аудитов моделей, особенно в контексте широкого применения LLMs в различных сферах, включая образовательные, юридические и социальные системы. Анализ внутренних представлений моделей позволяет выявить и устранять биазы, касающиеся религиозной идиентичности, насилия и географических аспектов. Такой подход может способствовать более честному и точному представл

Annotation:

Despite growing research on bias in large language models (LLMs), most work has focused on gender and race, with little attention to religious identity. This paper explores how religion is internally represented in LLMs and how it intersects with concepts of violence and geography. Using mechanistic interpretability and Sparse Autoencoders (SAEs) via the Neuronpedia API, we analyze latent feature activations across five models. We measure overlap between religion- and violence-related prompts an...

ID: 2509.17665v1 cs.LG, cs.AI, cs.CY

arXiv PDF

📄 Contextual Budget Bandit for Food Rescue Volunteer Engagement

2025-09-17

Авторы:

Ariana Tang, Naveen Raman, Fei Fang, Zheyuan Ryan Shi

## Контекст Волонтерские платформы по спасению продуктов питания играют ключевую роль в борьбе с проблемой пищевой траты, организовывая спасение и распределение пищи из лишних ресурсов в необходимые сегменты общества. Однако эти платформы сталкиваются с двумя основными вызовами: поддержанием мотивации волонтеров и максимальной эффективностью в спасении продуктов. Исследования показывают, что существующие алгоритмы, нацеленные на повышение уровня участия волонтеров, в некоторых случаях ухудшают равенство географического доступа к продуктам. Таким образом, некоторые коммунитиевые группы постоянно остаются в ущербе, получая меньше пищи в отношении своих потребностей. Этот аспект вызывает мотивацию для разработки новых, более справедливых подходов к распределению ресурсов. ## Метод Мы предлагаем Contextual Budget Bandit, метод, который интегрирует контекст-зависимую бюджетированию в модель restless multi-armed bandits (RMABs). Эта модель позволяет рассматривать "рычаги" как состоятельные системы, которые могут менять свои состояния в зависимости от принятых решений. Наша модель использует контекстные данные о расположении волонтеров, требованиях к продуктам и доступности средств для распределения. Основной метод - это Contextual Budget Bandit. Он оптимизирует бюджеты в соответствии с конкретными контекстными условиями для каждого рычага, увеличивая бюджеты для тех регионов, где уровень матчей низкий. Для повышения точности, мы разработали вычислительно эффективную реализацию - Heuristic Algorithm. Однако, когда доступность волонтеров ограничена, этот алгоритм может давать неточные результаты. В этом случае мы предлагаем алгоритм Mitosis, который гарантирует оптимальное распределение бюджетов. ## Результаты Мы проверили наши алгоритмы на двух типах данных: синтетических и реальных данных из платформы спасения продуктов. Замеры показали, что Contextual Budget Bandit улучшает равенство в распределении продуктов в пределах разных регионов, не жертвуя производительностью. На синтетических данных, где мы могли контролировать различные входные параметры, Contextual Budget Bandit показал значительное улучшение по отношению к базовым методам. На реальных данных, Contextual Budget Bandit также проявил выигрыш в сравнении с другими методами, особенно в тех областях, где географическая справедливость была критично важна. ## Значимость Метод Contextual Budget Bandit может быть применен не только в сфере спасения продуктов, но и в других ситуациях, где необходимо сбалансированное распределение средств в условиях изменчивых требований, таких как распределение лекарств, медицинских услуг

Annotation:

Volunteer-based food rescue platforms tackle food waste by matching surplus food to communities in need. These platforms face the dual problem of maintaining volunteer engagement and maximizing the food rescued. Existing algorithms to improve volunteer engagement exacerbate geographical disparities, leaving some communities systematically disadvantaged. We address this issue by proposing Contextual Budget Bandit. Contextual Budget Bandit incorporates context-dependent budget allocation in restle...

ID: 2509.10777v1 cs.LG, cs.AI, cs.CY

arXiv PDF

📄 Explaining How Quantization Disparately Skews a Model

2025-09-11

Авторы:

Abhimanyu Bellam, Jung-Eun Kim

#### Контекст Модели глубинного обучения широко применяются в различных областях, но их размер и сложность часто ограничивают их эффективность в реальных ситуациях. Post Training Quantization (PTQ) является популярным способом уменьшить размер модели, ускорить ее вычисления и сократить необходимую память, при этом с минимальным влиянием на точность. Однако, несмотря на эти преимущества, PTQ может привести к неожиданным негативным последствиям, в частности к расширению социально-экономических различий в различных подгруппах. Это наблюдение подчеркивает важность понимания того, как PTQ влияет на различные группы пользователей, и разработки методов для устранения этих недостатков. #### Метод Мы проводим тщательную аналитическую и экспериментальную исследовательскую работу, чтобы раскрыть внутренние механизмы, приводящие к расхождению в поведении модели во время PTQ. Архитектура нашего исследования включает в себя мониторинг изменений весов и активаций модели в процессе quantization, а также изучение градиентов, гессианов и логитов. Мы используем различные данные, включая обучающие и тестовые выборки, чтобы проверить нашу теорию и измерить соответствующие индикаторы. Таким образом, мы получаем подробное представление о том, как quantization сказывается на различных группах данных. #### Результаты Наши эксперименты показали, что quantization приводит к уменьшению точности модели для менее часто встречающихся групп, что связано с изменением весов и активаций. Мы наблюдаем увеличение потерь и достигаем более низкую точность для групп, подверженных расхождениям. Также, исследование градиентов и гессиан-матрицы позволило нам увидеть, как quantization влияет на этапы обучения и вкладывает в него необратимые ошибки. Эти наблюдения позволяют понять, почему модели, полученные через PTQ, могут проявлять различия в конкретных подгруппах. #### Значимость Наши результаты имеют значительное значение для разных областей, включая медицину, финансы, транспорт и социальные сети. Они помогают продвинуть направления в разработке справедливых решений для различных групп пользователей. Мы показываем, что стратегии, такие как mixed precision Quantization Aware Training (QAT), интеграция данных с разными семантическими группами и добавление весов в loss-функцию, могут существенно улучшить справедливость моделей на данных, полученных через quantization. #### Выводы Мы установили, что quantization может привести к разрыву в поведении модели, больше вредным для небольших и менее часто встречающихся групп. Наше исследование подчеркивает важность разработки систем, учитывающих эти особенности. Мы предлагаем расширенные методы, такие как mixed precision QAT, чтоб

Annotation:

Post Training Quantization (PTQ) is widely adopted due to its high compression capacity and speed with minimal impact on accuracy. However, we observed that disparate impacts are exacerbated by quantization, especially for minority groups. Our analysis explains that in the course of quantization there is a chain of factors attributed to a disparate impact across groups during forward and backward passes. We explore how the changes in weights and activations induced by quantization cause cascaded...

ID: 2509.07222v1 cs.LG, cs.AI, cs.CY

arXiv PDF

📄 Water Demand Forecasting of District Metered Areas through Learned Consumer Representations

2025-09-11

Авторы:

Adithya Ramachandran, Thorkil Flensmark B. Neergaard, Tomás Arias-Vergara, Andreas Maier, Siming Bayer

## Контекст Современные смарт-метринговые технологии позволили значительно улучшить управление и мониторинг водопоставки. Однако, в условиях увеличивающейся неопределенности, вызванной климатическими изменениями, обеспечение надёжного водопоставки стало настоящим глобальным вызовом с широкими социально-экономическими последствиями. Анализ постоянных потреблений пользователей позволяет прогнозировать потребность в воде в регионах с разными потребительскими характеристиками. Однако, прогнозирование водного потребления остаётся сложной задачей, так как потребление может быть влияно динамическими неопределёнными факторами, такими как погодные условия. В данной работе предлагается новый подход к прогнозированию краткосрочного водопотребления в районах с разбиением на зоны с мостиком (District Metered Areas, DMAs), включающих коммерческие, сельскохозяйственные и жилые потребители. ## Метод В статье предлагается применение неучитывающего (unsupervised) метода сравнения (contrastive learning) для классификации потребителей по их потребленным моделям в рамках района с мостиком. Эти поведенческие модели используются в качестве дополнительных признаков для прогнозирования водопотребления с помощью конвейера, основанного на сверточных сетях с волновым преобразованием (wavelet-transformed convolutional networks) и кросс-аттенционным механизмом. Это даёт возможность совместно использовать исторические данные и новые представления потребителей для более точного прогнозирования. Метод был реализован и тестирован с использованием реальных данных от DMAs в течение шести месяцев. ## Результаты Выполнено экспериментальное исследование на реальных данных от DMAs. На основе оценки показателя средней абсолютной процентной ошибки (MAPE) показано, что предложенный метод повысил точность прогнозирования в сравнении с базовыми методами на 4.9%. Были также выявлены потребители, чьё поведение влияет на потребление воды в рамках семейной, социальной и экономической сфер, что позволяет улучшить понимание детерминированных факторов, влияющих на водное потребление. ## Значимость Предложенный метод может быть применён в сфере мониторинга и управления водой для краткосрочного прогнозирования потребления в районах с мостиком. Он предоставляет новый подход к учёту различных потребительских моделей, улучшая точность прогнозов. В последующих исследованиях планируется расширить применение этого подхода на более крупные масштабы и исследовать возможности интеграции с другими метринговыми технологиями для повышения уровня корреляции между потреблением и прогнозом. ## Выводы Работа представляет новый подход к прогнозированию водопотребления в DMAs с

Annotation:

Advancements in smart metering technologies have significantly improved the ability to monitor and manage water utilities. In the context of increasing uncertainty due to climate change, securing water resources and supply has emerged as an urgent global issue with extensive socioeconomic ramifications. Hourly consumption data from end-users have yielded substantial insights for projecting demand across regions characterized by diverse consumption patterns. Nevertheless, the prediction of water ...

ID: 2509.07515v1 cs.LG, cs.AI, cs.CY

arXiv PDF

📄 Evaluating Federated Learning for At-Risk Student Prediction: A Comparative Analysis of Model Complexity and Data Balancing

2025-08-28

Авторы:

Rodrigo Tertulino

## Контекст Современные высшие учебные заведения сталкиваются с острой проблемой высоких отставаний и отказов в дистанционном обучении. Эти явления не только сказываются на уровне формирования общих академических результатов, но и сильно повлияют на индивидуальный успех студентов. Одним из ключевых подходов к решению этой проблемы является раннее идентифицирование рискованных студентов. Это позволит институтам предоставить необходимую поддержку в самый ранний срок. Однако развитие таких систем сталкивается с несколькими вызовами, включая защиту персональных данных и изоляцию данных между учреждениями. Исследование сосредоточено на использовании методов машинного обучения для решения этих проблем, при этом применение Federated Learning (FL) позволяет создать модели, которые одновременно обеспечивают эффективность и соблюдают необходимую конфиденциальность. ## Метод Для разработки модели использовалась база данных OULAD, которая содержит разнообразные аспекты учебного процесса и цифровых взаимодействий студентов. Для формирования базовой модели, анализирующей риск выпадения, использовались два типа моделей: Logistic Regression (LR) и Deep Neural Network (DNN). Для гарантии конфиденциальности данных и масштабируемости решения реализовали федеративное обучение (Federated Learning), в котором модели обучались непосредственно на данных отдельных учреждений, не обрабатываясь в централизованном репозитории. Это позволило обеспечить безопасность данных, сохранив хорошую точность в предсказаниях. ## Результаты Используя OULAD-датасет, проведен набор экспериментов с обеими моделями, Logistic Regression и DNN. Оба подхода были протестированы на различных уровнях сложности и методах балансировки данных. Благодаря FL-фреймворку, обучение проводилось на отдельных учебных заведениях, не раскрывая исходных данных. Результаты показали, что федеративная модель DNN демонстрирует высокую точность, с ROC AUC-скором 85% для прогнозирования риска отставания студентов. Это подтверждает мощь FL в решении проблем распределенного обучения, при этом учитывая конфиденциальность данных. ## Значимость Результаты имеют практическое значение для многих учебных заведений, которым необходимы эффективные системы раннего предупреждения. Federated Learning позволяет интегрировать данные из нескольких источников без угрозы конфиденциальности, что делает это решение привлекательным для различных учреждений. Это может привести к повышению производительности студентов, снижению отставаний и замедлений в обучении. Модель также может быть применена в других областях, где требуется соблюдение конфиденциальности данных, например, в медицине или финансах.

Annotation:

High dropout and failure rates in distance education pose a significant challenge for academic institutions, making the proactive identification of at-risk students crucial for providing timely support. This study develops and evaluates a machine learning model based on early academic performance and digital engagement patterns from the large-scale OULAD dataset to predict student risk at a UK university. To address the practical challenges of data privacy and institutional silos that often hind...

ID: 2508.18316v1 cs.LG, cs.AI, cs.CY

arXiv PDF

📄 Welfare-Centric Clustering

2025-08-16

Авторы:

Claire Jie Zhang, Seyed A. Esmaeili, Jamie Morgenstern

## Контекст Fair clustering, традиционно, стремился обеспечить справедливое представление групп или равномерную распределенность групп по кластерам. Однако Dickerson et al. (2025) показали, что эти подходы могут привести к нежелательным и неожиданным результатам. В отличие от них, программы welfare-centric clustering моделируют групповые удовлетворенности на основе расстояний и пропорционального представления. Эта мотивация исходит от необходимости создания методов, которые бы учитывали не только расстояния, но и целевые ценности для групп. Наша работа призвана развить эти идеи, предлагая новые алгоритмы и теоретические гарантии по формализации и решению проблем справедливого кластеризации. ## Метод Мы предлагаем новые модели для welfare-centric clustering, основанные на двух оптимизационных целях: Rawlsian (Egalitarian) и Utilitarian. Методы основываются на произвольной геометрии кластеров, что дает гибкость в учете различных аспектов в формировании кластеров. Для обоих целей мы предлагаем алгоритмы с оптимальными или приближенными решениями, включающими графовые алгоритмы и линейное программирование. Эти алгоритмы развиваются в рамках общей архитектуры, которая обеспечивает сбалансированное учете динамических и статических факторов. ## Результаты Мы проводили эксперименты на нескольких реальных датасетах, включая те, которые использовались в предыдущих работах по справедливому кластеризации. Методы, основанные на welfare-centric clustering, показали существенную выгоду по сравнению с базовыми подходами. В частности, один из алгоритмов предложенных нами показал лучшие результаты в терминах пропорционального представления и равномерности распределения. Эти результаты были подтверждены теоретическими гарантиями и высокой точностью в реальных условиях. ## Значимость Welfare-centric clustering может быть применен в различных областях, таких как распределение ресурсов, моделирование социальных сетей или принятие решений в сфере здравоохранения. Наш подход предлагает более гибкие и справедливые способы анализа и кластеризации данных, учитывая конкретные цели и удовлетворенность групп. Это может привести к оценкам, которые лучше отражают реальные ценности и необходимости в реальном мире. Это имеет потенциал для изменения того, как мы принимаем решения в сферах, где групповые заинтересованности имеют большое значение. ## Выводы Наша работа демонстрирует, что welfare-centric clustering может предложить новый подход к справедливому кластеризации, основываясь на моделировании групповых удовлетворенностей. Мы продвигаем теоретические гарантии и эффективные алгоритмы, которые позволяют о

Annotation:

Fair clustering has traditionally focused on ensuring equitable group representation or equalizing group-specific clustering costs. However, Dickerson et al. (2025) recently showed that these fairness notions may yield undesirable or unintuitive clustering outcomes and advocated for a welfare-centric clustering approach that models the utilities of the groups. In this work, we model group utilities based on both distances and proportional representation and formalize two optimization objectives ...

ID: 2508.10345v1 cs.LG, cs.AI, cs.CY, cs.DS

arXiv PDF

📄 Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning

2025-08-13

Авторы:

Stephan Rabanser

#### Контекст Современные машинные обучающие системы (ML) применяются во все более чувствительных областях, где надежность и достоверность являются ключевыми факторами успеха. Однако многие ML-системы страдают от недостатка надежности в условиях неопределенности, что может привести к ошибкам серьезных последствий. В этом контексте возникает задача повышения надежности ML-систем, особенно в ситуациях, когда модель не уверена в своих прогнозах. Эта проблема требует развития методов, позволяющих моделям не только делать прогнозы, но и решать, когда лучше отказаться от них, чтобы избежать потенциальных ошибок. Такие подходы способствуют укреплению доверия пользователей к ML-системам и их безопасному применению в критически важных областях. #### Метод Методология основывается на использовании **неопределенности** в процессе обучения модели как важных индикаторов состоятельности ее прогнозов. Техника **ensembling отдельных чекпоинтов**, обученных моделью в процессе обучения, позволяет построить метод **post-hoc abstention**, который не требует изменения архитектуры или функции потерь модели. Этот подход оказывается легким и эффективным, достигая новых результатов в области **selective prediction**. Более того, метод тщательно интегрируется с **differential privacy (DP)**, чтобы изучить влияние шума, вводимого для обеспечения конфиденциальности, на качество неопределенности. Это открытое исследование позволяет лучше понять тонкий баланс между неопределенностью и защитой конфиденциальности. #### Результаты Результаты исследований показали, что подход, основанный на **trajectory-based uncertainty**, не только показал высокую эффективность в **selective prediction**, но и доказал свою робастность при применении к задачам с защитой конфиденциальности. Другие методы, в том числе те, которые используют **ensemble других моделей**, могут страдать под воздействием шума DP, в то время как траектория-ориентированный подход остается надежным. Также была представлена финальная модель, которая не только способна отказаться от неуверенных прогнозов, но и делает это с поддержкой принципов повышения конфиденциальности. Эти результаты установили новый стандарт в области **trustworthy ML**. #### Значимость Полученные методы могут быть применены в различных областях, где надежность ML-систем является критически важной, таких как здравоохранение, финансы и безопасность. Известно, что **uncertainty estimation** позволяет моделям сделать более уверенные решения, уменьшая риск ошибок. Этот подход также открывает возможности для **сочетания надежности и конфиденциальности**, что может стать решением многих проблем в сфере прикладного использования моделей. Благодаря этой работе, модели становятся боле

Annotation:

Machine learning (ML) systems are increasingly deployed in high-stakes domains where reliability is paramount. This thesis investigates how uncertainty estimation can enhance the safety and trustworthiness of ML, focusing on selective prediction -- where models abstain when confidence is low. We first show that a model's training trajectory contains rich uncertainty signals that can be exploited without altering its architecture or loss. By ensembling predictions from intermediate checkpoints,...

ID: 2508.07556v1 cs.LG, cs.AI, cs.CY, stat.ML

arXiv PDF

📄 FairPOT: Balancing AUC Performance and Fairness with Proportional Optimal Transport

2025-08-09

Авторы:

Pengxi Liu, Yi Shen, Matthew M. Engelhard, Benjamin A. Goldstein, Michael J. Pencina, Nicoleta J. Economou-Zavlanos, Michael M. Zavlanos

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время файрнесс (справедливость) алгоритмов прогнозирования стала ключевой проблемой в областях с высоким риском, таких как здравоохранение, финансы и правоохранительная система. Традиционно файрнесс оценивается на основе метрик, связанных с площадью под кривой характеристики (AUC), особенно когда речь идет̆ о рисковых оценках, а не о бинарных результатах. Однако существует значительный конфликт между достижением высокой AUC и обеспечением файрнесса между различными группами. Часто принудительное обеспечение справедливости приводит к значительному ухудшению качества модели, что ограничивает еӗ практическую применимость. Одним из ключевых вызовов является необходимость выравнивания распределений рисковых оценок между различными группами без существенного потерй в AUC. Эта проблема особенно остра в сферах, где решения имеют прямое влияние на жизнь людей, такие как диагностика заболеваний или определение кредитных рисков. Таким образом, необходим метод, который может балансировать эти две цели: сохранение высокой производительности модели и обеспечение справедливости распределений рисков. В свете этих вызовов, авторы предлагают метод Fair Proportional Optimal Transport (FairPOT), который предназначен для выравнивания распределений рисков между группами с помощью стратегического использования оптимального транспорта. Этот метод позволяет контролировать долю рисковых оценок, которые будут изменены, чтобы достичь оптимального баланса между файрнессом и производительностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД FairPOT представляет собой модельно-независимый пост-процессинговый фреймворк, который выравнивает распределения рисковых оценок между различными группами. Основная идея заключается в использовании оптимального транспорта для выравнивания распределений, но только для определенной доли (top-lambda квантиль) рисковых оценок в рамках неблагоприятной группы. Этот подход позволяет контролировать степень изменения распределений, что дает̆ возможность настроить баланс между файрнессом и AUC. Алгоритм FairPOT работает путем переназначения рисковых оценок в рамках неблагоприятной группы с помощью оптимального транспорта. Это позволяет достичь более справедливого распределения, при этом сохраняя высокую производительность модели. Метод также расширяется на partial AUC, что позволяет концентрировать файрнесс-интервенции на самых высоких рисках, что особенно важно в приложениях, где критично точно определять высокие риски. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследования на синтетических, публичных и клинических данных. Результаты показали, что FairPOT показывает лучшие результаты по сравнению с существующими пост-процессинговыми методами в обоих сценариях: глобальном AUC и partial AUC. Метод достигает значительного улучшения файрнесса с минимальным ухудшением AUC или даже с улучшением утилиты в некоторых случаях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FairPOT может быть применен в различных областях, где необходимо балансировать производительность и справедливость, таких как здравоохранение, финансы и правоохранительная система. Его высокая вычислительная эффективность и адаптивность делают его практически применимым в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FairPOT представляет собой значительный шаг вперёд в области файрнесс-оптимизации. Будущие исследования могут расширить этот подход на более сложные модели и дополнительные метрики файрнесса.

Annotation:

Fairness metrics utilizing the area under the receiver operator characteristic curve (AUC) have gained increasing attention in high-stakes domains such as healthcare, finance, and criminal justice. In these domains, fairness is often evaluated over risk scores rather than binary outcomes, and a common challenge is that enforcing strict fairness can significantly degrade AUC performance. To address this challenge, we propose Fair Proportional Optimal Transport (FairPOT), a novel, model-agnostic p...

ID: 2508.03940v1 cs.LG, cs.AI, cs.CY, stat.ML

arXiv PDF

Показано 21 - 28 из 28 записей