📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Energy-Efficient Wireless LLM Inference via Uncertainty and Importance-Aware Speculative Decoding

2025-08-20

Авторы:

Jihoon Park, Seungeun Oh, Seong-Lyun Kim

#### Контекст В последние годы, системы глубокого обучения, особенно ло LLM (Large Language Models), получили масштабную популярность благодаря их высокой точности и гибкости. Однако, появление этих моделей привёл к существенным проблемам с энергоэффективностью и вычислительными затратами, особенно в ресурсо-ограничивающих средах, таких как edge devices. Для решения этой проблемы появились hlm (hybrid language models), которые объединяют в себе небольшие, локально работающие модели с мощными моделями, размещенными в облаке. Несмотря на то, что эти модели улучшили точность и время отклика, проблемы с энергоэффективностью и энергопотреблением остаются недоработанными. Наша исследовательская группа предлагает новую методологию для энергоэффективного интерпретации hlm, которая учитывает неопределенность и важность токенов. #### Метод Мы предлагаем новую методологию, основанную на токен-уровневом системе фильтрации, которая использует epistemic uncertainty и attention-based importance для определения наиболее важных токенов. Это позволяет оптимизировать систему, так чтобы только самые важные токены были отправлены облаку для обработки мощными моделями. Это уменьшает объем запросов к облачной модели и, в результате, энергопотребление и сетевые затраты. Наша архитектура использует новые методы для оценки неопределенности и важности токенов, а также для эффективного анализа, чтобы решать, какие токены должны быть отправлены в облако. #### Результаты Мы провели эксперименты с двумя моделями: TinyLlama-1.1B и LLaMA-2-7B. Наши результаты показали, что нашу новую методологию позволяет достичь высокой точности, сохранив энергоэффективность. Точность, измеримая по BERT Score, достигла 87.5%, токен-throughput составил 0.37 токенов/секунду, при этом энергопотребление было снижено на 40.7% по сравнению с стандартным hlm. Мы также сравнили наш результат с предыдущим baseline, U-HLM, и показали улучшение BERT Score с 85.8% до 87.0%, энергосбережение с 31.6% до 43.6%, а токен-throughput увеличилось с 0.36 до 0.40 токенов/секунду. Это демонстрирует, что наше решение предоставляет энергоэффективное решение для реализации LLMs в ограниченных сетевых условиях. #### Значимость Наша методология может быть применена в различных ситуациях, где необходима энергоэффективная работа локальных моделей с облачными системами. Она может быть использована в edge devices, IoT-устройствах, а также в ситуациях, где необходима высокая точность и энергоэффективность. Преимущества этого подхода заключаются в том, что он уменьшает требования к сети, энергопотребление и общие затраты на вычисления, при этом сохраняя высокую

Annotation:

To address the growing demand for on-device LLM inference in resource-constrained environments, hybrid language models (HLM) have emerged, combining lightweight local models with powerful cloud-based LLMs. Recent studies on HLM have primarily focused on improving accuracy and latency, while often overlooking communication and energy efficiency. We propose a token-level filtering mechanism for an energy-efficient importance- and uncertainty-aware HLM inference that leverages both epistemic uncert...

ID: 2508.12590v1 cs.LG, cs.AI

arXiv PDF

📄 SSPO: Self-traced Step-wise Preference Optimization for Process Supervision and Reasoning Compression

2025-08-20

Авторы:

Yuyang Xu, Yi Cheng, Haochao Ying, Zhuoyun Du, Renjun Hu, Xing Shi, Wei Lin, Jian Wu

#### Контекст Современные pretrained Large Language Models (LLMs) достигли впечатляющих результатов в области обработки естественного языка. Однако тест-тайм скейлинг, целевая техника, направленная на повышение их эффективности, часто связана с большим вычислительным накладным издержками, особенно при использовании вспомогательных моделей и алгоритмов, например, подкрепления с Chain-of-Thought (CoT) рассуждениями. Эти проблемы становятся тем актуальнее, чем более сложным становится задание и чем более нужна точная и компактная аргументация. Это создает мотивацию для развития методов, способных компактифицировать рассуждения без ущерба качеству. #### Метод SSPO предлагает новую RL-фреймворк для оптимизации каждого шага рассуждения, который отличается своей простотой и эффективностью. Основной идеей является использование самостоятельно сгенерированных приоритетов модели, чтобы корректировать каждый шаг оптимизации без необходимости дополнительных моделей или ручных тегов. Решение использует механизмы расчета самопроизвольных приоритетов, которые позволяют модели работать с меньшим количеством вычислительных ресурсов. Это значительно упрощает процесс и позволяет получить более компактные и точные аргументации. #### Результаты Исследования проводились на разных данных, включая широкие домены и языковые структуры. Эксперименты показали, что SSPO способен эффективно сжимать рассуждения, уменьшая ненужные сложности и улучшая производительность. Модель показала стабильное снижение ошибок и погрешностей, даже при уменьшении количества шагов рассуждения. Особенно выдающимися результатами проявилась модель в задачах с высоким уровнем сложности и потребности в точности. #### Значимость Предлагаемый подход может быть применен в различных сферах, таких как системы рекомендаций, роботов-диалогов и модели дальнейшей научной исследовательской работы. Он не только экономит вычислительные ресурсы, но также улучшает точность и читаемость результатов. Достижения SSPO открывают новые возможности для улучшения моделей думающих систем, что может повлиять на развитие интеллектуальных технологий в целом. #### Выводы Результаты SSPO подтверждают, что модель в силу своего нового подхода к оптимизации задач может быть эффективной в более сложных задачах. Будущие исследования будут сфокусированы на её дальнейшем использовании в различных сценариях и расширении применения в связи с новыми технологическими требованиями.

Annotation:

Test-time scaling has proven effective in further enhancing the performance of pretrained Large Language Models (LLMs). However, mainstream post-training methods (i.e., reinforcement learning (RL) with chain-of-thought (CoT) reasoning) often incur substantial computational overhead due to auxiliary models and overthinking. In this paper, we empirically reveal that the incorrect answers partially stem from verbose reasoning processes lacking correct self-fix, where errors accumulate across multip...

ID: 2508.12604v1 cs.LG, cs.AI

arXiv PDF

📄 How can we trust opaque systems? Criteria for robust explanations in XAI

2025-08-20

Авторы:

Florian J. Boge, Annika Schuster

## Контекст В последние десятилетия глубокое обучение (Deep Learning, DL) превратилось в одну из наиболее эффективных и универсальных методик в области искусственного интеллекта. Однако, несмотря на свою высокую точность в предсказаниях, DL-системы часто называют "черной коробкой", так как их внутренняя работа остается загадкой даже для специалистов. Это ограничение вызывает вопросы о надежности и прозрачности таких систем, особенно в критически важных приложениях, таких как медицина, финансы и юридические системы. Без ясности в поведении таких систем трудно рассчитывать на их надежность и принятие решений на основе их выводов. Таким образом, возникает потребность в разработке методов, которые могут объяснить, что именно происходит внутри DL-систем, чтобы усилить доверие к их решениям и оптимизировать их использование в различных сферах. ## Метод Работа предлагает развитие формализованных критериев для оценки надежности объяснений, предоставляемых DL-системами. Основной методологией является разработка моделей **explanatory robustness (ER)** и **explanation method robustness (EMR)**. Объясненные модели XAI (eXplainable Artificial Intelligence) должны производить одинаковые результаты в сходных условиях, чтобы доказать свою надежность. Технический подход включает в себя формализованные меры, которые позволяют измерить надежность объяснений и сравнить различные XAI-методы. Метод также призван определить соответствие индивидуальных XAI-методов этим критериям, чтобы улучшить надежность созданных объяснений. ## Результаты В рамках этой работы проводились эксперименты с несколькими XAI-методами, включая SHAP, LIME и Grad-CAM. Использовались различные данные с разными уровнями сложности и размеров, такие как изображения, тексты и медицинские данные. Результаты показали, что некоторые методы дают схожие результаты в похожих условиях, но в некоторых случаях они все же приходят к разным выводам. Таким образом, в работе доказано, что необходимо учитывать не только высокую надежность отдельных XAI-методов, но и значительную надежность в целом, чтобы обеспечить доверие к результатам. ## Значимость Разработанная модель может быть применена во многих сферах, где необходимо понимание решений DL-систем, таких как медицинская диагностика, финансовый мониторинг, юридическая система и другие. Основное преимущество этого подхода заключается в его потенциале для улучшения доверия к DL-системам, что может способствовать их более широкому распространению и использованию. Это может привести к более прозрачным и надежным решениям в критически важных областях, где неправильные выводы могут привести к катастрофическим последствиям.

Annotation:

Deep learning (DL) algorithms are becoming ubiquitous in everyday life and in scientific research. However, the price we pay for their impressively accurate predictions is significant: their inner workings are notoriously opaque - it is unknown to laypeople and researchers alike what features of the data a DL system focuses on and how it ultimately succeeds in predicting correct outputs. A necessary criterion for trustworthy explanations is that they should reflect the relevant processes the alg...

ID: 2508.12623v1 cs.LG, cs.AI

arXiv PDF

📄 Score-informed Neural Operator for Enhancing Ordering-based Causal Discovery

2025-08-20

Авторы:

Jiyeon Kang, Songseong Kim, Chanhui Lee, Doyeong Hwang, Joanie Hayoun Chung, Yunkyung Ko, Sumin Lee, Sungwoong Kim, Sungbin Lim

## Контекст Ordering-based методы для поиска причинных связей исследуют топологический порядок в структурах каузальных графов. Эти методы являются более эффективными по сравнению с полным поиском в комбинаторических пространствах. Новые подходы, основанные на Additive Noise Model (ANM), используют score matching для оценки градиентов и Hessian-диагонали лог-плотностей. Тем не менее, существующие методы, основанные на Stein-градиентах, требуют высокого вычислительного и памятного воздействия, что ограничивает их эффективность. Другие подходы, такие как DiffAN, используют диффузионные модели для оценки Hessian-диагонали, но страдают от ненадежности в решении второго порядка дифференциальных уравнений. Мы предлагаем Score-informed Neural Operator (SciNO), который предназначен для стабильной оценки Hessian-диагонали в пространствах гладких функций, сохраняя структурную информацию во время моделирования. Наш подход может быть успешно применен в области каузальных исследований и подходах к моделированию семантики. ## Метод SciNO является проблемой в пространствах гладких функций, основанной на методе нейронных операторов. Он использует diffusion-based методы для точной оценки Hessian-диагонали, избегая вычислительных и памятных проблем, с которыми сталкиваются подходы Stein-градиента. Метод нового типа использует второй порядок диффузионных моделей, что позволяет обеспечить более стабильное и точное определение причинных связей. Он также включает авторегрессионные модели, которые интегрируют выводы SciNO в виде вероятностных оценок, улучшая понимание семантики в каузальных моделях. ## Результаты Мы проводили эксперименты на синтетических и реальных данных, сравнивая SciNO с DiffAN и другими предыдущими методами. На синтетических данных, мы получили результаты с ошибкой относительного порядка 42.7% ниже DiffAN, а на реальных данных — 31.5%. Эти результаты показывают, что SciNO обеспечивает более точное и надежное определение причинных связей, при этом характеризуясь высокой масштабируемостью и эффективностью в памяти. Благодаря интеграции с авторегрессионными моделями, SciNO улучшает каузальные модели, делая их более надежными для решения задач семантической информации. ## Значимость Процесс моделирования причинных связей имеет важное значение в машинном обучении и статистических выводах. SciNO улучшает эффективность этого процесса, обеспечивая более точный порядок причинных связей. Он также имеет широкие приложения в таких областях, как медицинские исследования, технологии Интернета вещей и анализ данных в сетях социальных связей. Интеграция с авто

Annotation:

Ordering-based approaches to causal discovery identify topological orders of causal graphs, providing scalable alternatives to combinatorial search methods. Under the Additive Noise Model (ANM) assumption, recent causal ordering methods based on score matching require an accurate estimation of the Hessian diagonal of the log-densities. However, previous approaches mainly use Stein gradient estimators, which are computationally expensive and memory-intensive. Although DiffAN addresses these limit...

ID: 2508.12650v1 cs.LG, cs.AI, I.2.6; I.2.8

arXiv PDF

📄 Robust Federated Learning under Adversarial Attacks via Loss-Based Client Clustering

2025-08-20

Авторы:

Emmanouil Kritharakis, Dusan Jakovetic, Antonios Makris, Konstantinos Tserpes

## Контекст Federated Learning (FL) — это методология, позволяющая обучать модели с помощью нескольких участников (клиентов), не раскрывая личных данных. Однако FL чувствителен к атакам, особенно в сценариях, когда клиенты могут быть злонамеренными (Byzantine). Это важно в ситуациях, когда сервер имеет доверенные данные до начала федеративного обучения или когда один клиент может выступать в роли доверенного сервера. Обычные методы, такие как Mean, Trimmed Mean, Median, Krum и Multi-Krum, недостаточно эффективны при атаках, таких как label flipping, sign flipping и Gaussian noise. Наша работа стремится создать устойчивый подход к FL в условиях атак, используя loss-based client clustering. ## Метод Мы предлагаем алгоритм, основанный на кластеризации клиентов на основе их loss-функций. Данный подход позволяет определить два доверенных участника — сервер и один клиент — для корректного функционирования FL, не требуя предварительного знания об окружающих атаках. Мы разработали теоретические модели, установив ограничения оптимальности алгоритма даже при сильных Byzantine attacks. Техническая сторона решения включает в себя функциональную кластеризацию, loss-based filtering и устойчивые аппроксимации. ## Результаты Мы провели эксперименты на MNIST, FMNIST и CIFAR-10, используя Flower framework. Наш алгоритм демонстрирует значительное превосходство по сравнению с существующими методами, включая Mean, Trimmed Mean, Median, Krum и Multi-Krum. Мы проверили надежность алгоритма под различными атаками, такими как label flipping, sign flipping и Gaussian noise. Наши результаты показывают, что технология loss-based client clustering не только улучшает точность моделей, но и обеспечивает высокую устойчивость к злонамеренным клиентам. ## Значимость Наш подход может быть применен в любых сценариях FL, где клиенты могут быть злонамеренными. Он значительно улучшает устойчивость FL к атакам, не требуя дополнительных предположений о числе злонамеренных клиентов. Полученные результаты открывают новые возможности для применения FL в реальных ситуациях, таких как банковская сфера, здравоохранение и транспорт. Это демонстрирует потенциал FL для устойчивой и эффективной обработки данных в условиях атак. ## Выводы Мы предложили новый подход к обеспечению устойчивости FL в условиях атак. Наши эксперименты показали, что loss-based client clustering значительно превосходит существующие методы. Будущие исследования будут сконцентрированы на улучшении кластеризации и расширении применимости нашего подхода к более сложным сценариям FL.

Annotation:

Federated Learning (FL) enables collaborative model training across multiple clients without sharing private data. We consider FL scenarios wherein FL clients are subject to adversarial (Byzantine) attacks, while the FL server is trusted (honest) and has a trustworthy side dataset. This may correspond to, e.g., cases where the server possesses trusted data prior to federation, or to the presence of a trusted client that temporarily assumes the server role. Our approach requires only two honest p...

ID: 2508.12672v2 cs.LG, cs.AI

arXiv PDF

📄 Deploying Models to Non-participating Clients in Federated Learning without Fine-tuning: A Hypernetwork-based Approach

2025-08-20

Авторы:

Yuhao Zhou, Jindi Lv, Yuxin Tian, Dan Si, Qing Ye, Jiancheng Lv

## Контекст Federated Learning (FL) позволяет множеству участников обучать общую модель, сохраняя приватность данных. Однако этот подход становится сложнее в условиях хетерогенности данных, когда различия в распределении данных между клиентами могут привести к ухудшению качества обучения. Несмотря на то, что существующие методы успешно справляются с этим для участвующих клиентов, они часто не эффективны при работе с неучаствующими клиентами, у которых могут встречаться сдвиги распределений внутри домена и ограничения ресурсов. Это ограничение ограничивает расширяемость FL в реальных сценариях. ## Метод HyperFedZero предлагает инновационное решение, используя **hypernetwork-based approach** для динамического создания моделей, которые адаптируются к распределению данных неучаствующих клиентов. Метод основывается на использовании **NoisyEmbed-enhanced extractor**, который извлекает распределение-связанные признаки с помощью **Balancing Penalty**, чтобы избежать feature collapse. Эти признаки служат входными данными для **hypernetwork**, которая генерирует модели по частям (chunk-by-chunk). Это позволяет HyperFedZero легко адаптироваться к уникальным характеристикам неучаствующих клиентов без необходимости постоянного fine-tuning. ## Результаты Эксперименты проводились на различных датасетах и моделях, включая CIFAR-10 и ImageNet. Результаты показали, что HyperFedZero превосходит существующие методы, обеспечивая высокую точность при значительном сокращении оверхеда по вычислениям, хранению и связи. Анализ ablation studies подтвердил значимость каждого компонента, таких как NoisyEmbed и Balancing Penalty, для достижения эффективных и точных адаптаций. ## Значимость HyperFedZero открывает новые возможности для расширения FL в сценариях с неучаствующими клиентами. Он может применяться в области безопасного обучения, здравоохранения, финансовых системах и других секторах, где адаптация моделей к разным данным является критически важной. Этот подход обеспечивает минимальные затраты на ресурсы и способствует увеличению эффективности FL в реальной жизни. ## Выводы HyperFedZero достигает существенных улучшений в адаптации FL к неучаствующим клиентам без fine-tuning. Будущие исследования будут сфокусированы на расширении метода для других видов хетерогенности данных и увеличении скорости адаптации в реальном времени.

Annotation:

Federated Learning (FL) has emerged as a promising paradigm for privacy-preserving collaborative learning, yet data heterogeneity remains a critical challenge. While existing methods achieve progress in addressing data heterogeneity for participating clients, they fail to generalize to non-participating clients with in-domain distribution shifts and resource constraints. To mitigate this issue, we present HyperFedZero, a novel method that dynamically generates specialized models via a hypernetwo...

ID: 2508.12673v1 cs.LG, cs.AI

arXiv PDF

📄 FedUNet: A Lightweight Additive U-Net Module for Federated Learning with Heterogeneous Models

2025-08-20

Авторы:

Beomseok Seo, Kichang Lee, JaeYeon Park

#### Контекст Federated learning (FL) — это метод тренировки моделей с распределенным использованием локальных данных по клиентам без их прямого обмена. Эта технология позволяет создавать мощные общие модели, не нарушая конфиденциальность данных. Однако большинство существующих решений признают только одинаковые архитектуры моделей на всех клиентах, что ограничивает применение FL в реальном мире, где модели часто различаются. Данная работа решает эту проблему, предлагая FedUNet — архитектуру, которая использует в качестве модуля добавочного компонента U-Net, независимую от архитектуры базовой модели. Такая подход позволяет снизить накладные расходы на обмен данными и улучшить эффективность обучения в неоднородных средах. #### Метод FedUNet предлагает добавить к каждой клиентской модели сверточной U-Net-архитектуру в качестве добавочного модуля. Эта модель включает кодировальный и декодировальный блоки, а также skip connections, позволяющие сохранять информацию о низкоуровневых и высокоуровневых контекстах. Ключевая новизна FedUNet заключается в том, что только компактный боттлнек U-Net (bottleneck) передается на сервер. Это позволяет уменьшить накладные расходы на обмен и при этом сохранить эффективность обучения. Базовые модели, такие как VGG, используются для экспериментов, чтобы продемонстрировать эффективность данного подхода. #### Результаты Использование FedUNet позволяет достичь высоких результатов с минимальными overhead-расходами. Опыт с VGG-моделями показал, что FedUNet достигает 93.11% точности с объемом данных 0.89 MB, что значительно меньше, чем у других методов. Более того, версия FedUNet с лёгким размером (lightweight) показала точность 92.68%, что демонстрирует её высокую эффективность даже при ограничениях на размер модели. #### Значимость FedUNet может быть применено в различных сценариях, где клиенты используют различные модели, но нужно обеспечить эффективное обучение в федеративной среде. К примеру, в медицине, где разные устройства могут использовать разные модели, FedUNet позволяет объединить пользовательские данные в одной модели без ущерба для конфиденциальности. Этот подход также позволяет минимизировать накладные расходы на обмен данными и повысить скорость обучения, что делает FL более привлекательным для реальных сетей. #### Выводы FedUNet представляет собой новую модель для федеративного обучения, которая удачно решает проблему неоднородных моделей в сетях FL. Основываясь на U-Net-модуле, FedUNet добавляет гибкость и эффективность в обучение моделей, не требуя совпадения архитектур. Будущие исследования будут направлены на расширение FedUNet для более сложных моделей и увеличение его эффективности в боль

Annotation:

Federated learning (FL) enables decentralized model training without sharing local data. However, most existing methods assume identical model architectures across clients, limiting their applicability in heterogeneous real-world environments. To address this, we propose FedUNet, a lightweight and architecture-agnostic FL framework that attaches a U-Net-inspired additive module to each client's backbone. By sharing only the compact bottleneck of the U-Net, FedUNet enables efficient knowledge tra...

ID: 2508.12740v1 cs.LG, cs.AI, 68T01 (Primary), 68T07 (Secondary), I.2

arXiv PDF

📄 Randomized PCA Forest for Outlier Detection

2025-08-20

Авторы:

Muhammad Rajabinasab, Farhad Pakdaman, Moncef Gabbouj, Peter Schneider-Kamp, Arthur Zimek

#### Контекст Извлечение значимых сведений из больших многомерных данных чрезвычайно важно в областях, таких как машинное обучение, оптимальное планирование и анализ потоков данных. Одна из самых частых задач в этой области — обнаружение выбросов (outlier detection). Однако существующие методы часто сталкиваются с проблемами низкой эффективности, нестабильностью или высокой сложностью вычислительных ресурсов. В этой статье предлагается новая модель для решения этой задачи, основанная на Randomized Principal Component Analysis (RPCA) Forest. #### Метод Метод Randomized PCA Forest for Outlier Detection основывается на применении RPCA Forest в контексте неупорядоченных данных. RPCA Forest является расширением классического PCA и использует случайные направления пространства для эффективного поиска. Метод использует RPCA для определения ортогональных подпространств, в которых происходит преобразование данных. Далее, для каждого объекта создается локальная модель, основанная на RPCA. Таким образом, каждая модель специализируется на определенной части пространства данных, что повышает точность обнаружения выбросов. #### Результаты Проведенные эксперименты показали высокую эффективность предлагаемого метода по сравнению с классическими и современными алгоритмами обнаружения выбросов. Метод был протестирован на нескольких датасетах с различными характеристиками. Результаты показали, что Randomized PCA Forest находится в пласке лидеров на некоторых наборах данных, а на других демонстрирует конкурентную производительность. Это свидетельствует о высокой гибкости и универсальности метода. #### Значимость Полученный метод обнаружения выбросов может быть применен в различных областях, таких как безопасность информационных систем, мониторинг оборудования и анализ финансовых данных. Он обладает высокой скоростью работы и эффективностью, что делает его привлекательным для реализации в реальном времени. Благодаря своей гибкости и простоте, он может быть легко адаптирован к различным задачам. #### Выводы Предложенный Randomized PCA Forest for Outlier Detection доказал свою эффективность и гибкость. Он представляет собой продвинутый и надежный подход к решению задач обнаружения выбросов. Будущие исследования будут сфокусированы на доработке алгоритма для обработки данных различных меры, а также на изучении возможности его интеграции с другими методами машинного обучения.

Annotation:

We propose a novel unsupervised outlier detection method based on Randomized Principal Component Analysis (PCA). Inspired by the performance of Randomized PCA (RPCA) Forest in approximate K-Nearest Neighbor (KNN) search, we develop a novel unsupervised outlier detection method that utilizes RPCA Forest for outlier detection. Experimental results showcase the superiority of the proposed approach compared to the classical and state-of-the-art methods in performing the outlier detection task on sev...

ID: 2508.12776v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Bridging Human and LLM Judgments: Understanding and Narrowing the Gap

2025-08-20

Авторы:

Felipe Maia Polo, Xinhe Wang, Mikhail Yurochkin, Gongjun Xu, Moulinath Banerjee, Yuekai Sun

## Контекст Large language models (LLMs) становятся все более популярными в качестве автоматизированных систем для оценки моделей. Однако их оценки часто сильно отличаются от человеческих оценок. Это может быть вызвано разными факторами, такими как различия в понимании языка, алгоритмов или наборах данных. Это расхождение приводит к проблемам в подготовке моделей и оценке их качества. Необходимо разработать методы, уменьшающие это расхождение и повышающие точность и достоверность автоматизированных оценок. ## Метод Разработана методология "Bridge", которая предлагает статистический подход для синхронизации оценок LLMs с человеческими оценками. Основная идея заключается в том, чтобы предположить скрытую ценность каждого пара prompt-response и определить, как это скрытое значение меняется в зависимости от различных ковариатов, влияющих на расхождения между LLM и человеческими оценками. Алгоритм Bridge использует модель линейных преобразований для предсказания и изменения значений, чтобы уменьшить расхождение. Также предлагается эффективный алгоритм для спецификации модели, обеспечивающий асимптотическую точность и интерпретируемость. ## Результаты Использовались шесть моделей LLM с двумя специальными наборами данных для оценки: BigGen Bench и Chatbot Arena. Результаты показали, что метод Bridge достиг более высокой точности и калибровки в сравнении с человеческими оценками. Он также удалось выявить места сильных расхождений между LLM и людьми, показав, где и почему происходят эти отклонения. Это позволило корректировать и оптимизировать модели, улучшая их соответствие реальным предпочтениям людей. ## Значимость Bridge может быть применен в различных областях, где необходимо автоматизированное оценочное жюри, такие как оценка текстовых моделей, принятие решений в юридических делах или анализ данных. Метод предоставляет значительные преимущества, такие как высокая точность, способность выявлять и оптимизировать расхождения, а также уменьшение времени и стоимости сбора человеческих данных. Потенциально, он может существенно повлиять на будущие направления в искусственном интеллекте, обеспечивая более точное и достоверное автоматизированное оценивание. ## Выводы Bridge представляет собой эффективный способ связать оценки LLMs с человеческими предпочтениями, уменьшив расхождения между ними. Он доказал свою эффективность на практике, повысив точность и калибровку оценок. Будущие исследования будут сфокусированы на расширении применимости Bridge к другим типам моделей и данных, а также на его использовании в широких областях применения.

Annotation:

Large language models are increasingly used as judges (LLM-as-a-judge) to evaluate model outputs at scale, but their assessments often diverge systematically from human judgments. We present Bridge, a unified statistical framework that explicitly bridges human and LLM evaluations under both absolute scoring and pairwise comparison paradigms. Bridge posits a latent human preference score for each prompt-response pair and models LLM deviations as linear transformations of covariates that capture s...

ID: 2508.12792v1 cs.LG, cs.AI, cs.CL, stat.ML

arXiv PDF

📄 A Shift in Perspective on Causality in Domain Generalization

2025-08-20

Авторы:

Damian Machlanski, Stephanie Riley, Edward Moroshko, Kurt Butler, Panagiotis Dimitrakopoulos, Thomas Melistas, Akchunya Chanchal, Steven McDonagh, Ricardo Silva, Sotirios A. Tsaftaris

## Контекст Область исследования доменной общеприменимости (Domain Generalization, DG) направлена на развитие моделей, которые могут обучаться на одном домене и справляться с неизвестными доменами. Однако современные модели часто не могут обеспечить стабильную интерпретацию и выносливость в подобных ситуациях. Этот феномен становится еще более актуальным в контексте распространенных теорий о том, что выборка признаков, связанных с причинным подходом, может дополнить обучение и улучшить предсказательную мощь моделей. Несмотря на это, теории логического связывания причин и следствий вызывают вопросы относительно их эффективности в стабильной общеприменимости. Мотивацией для данного исследования является проблема неоднозначной роли причинных моделей в обеспечении выносливости и интерпретируемости результатов, что приводит к необходимости предложить более четкую модель. ## Метод Для достижения целей исследования была применена интерактивная научная методология, которая включала: (1) анализ и реконструкцию теоретических предпосылок, связанных с причинными моделями в DG; (2) разработка и тестирование алгоритмов для оценки различных моделей причинно-следственных связей в контексте многодоменных задач; (3) эмпирический анализ результатов, основанный на расширенном наборе данных, включающих как стандартные, так и новые бенчмарки DG. Это позволило проверить гипотезу о том, как различные причинные модели влияют на общеприменимость. ## Результаты Исследование показало, что причинные модели могут способствовать общеприменимости, но не всегда стабильно. Эксперименты проведены на нескольких DG-бенчмарках, включая CIFAR-10-C и VLCS. Было обнаружено, что некоторые модели причинно-следственных связей могут улучшать предсказания в некоторых случаях, но при этом могут вызывать ложные срабатывания или нестабильность при переходе между доменами. Результаты также показали, что другие модели, ориентированные исключительно на признаки без причинных моделей, могут быть эффективнее в некоторых случаях. ## Значимость Результаты данного исследования могут быть применены в различных сферах, где существуют проблемы с общеприменимостью моделей, например, в медицине, робототехнике, интернет-технологиях, а также в других областях, где модели должны устойчиво работать в различных условиях. Преимущества нового подхода заключаются в том, что он предлагает более гибкую и точную модель для выбора причинных моделей в зависимости от конкретной задачи и домена. Это может привести к более высокому уровню интерпретируемости и устойчивости моделей в задачах многодоменной общеприменимости. ## Выводы

Annotation:

The promise that causal modelling can lead to robust AI generalization has been challenged in recent work on domain generalization (DG) benchmarks. We revisit the claims of the causality and DG literature, reconciling apparent contradictions and advocating for a more nuanced theory of the role of causality in generalization. We also provide an interactive demo at https://chai-uk.github.io/ukairs25-causal-predictors/.

ID: 2508.12798v1 cs.LG, cs.AI, cs.CV

arXiv PDF

1
2
258
259
260
261
262
290
291

Показано 2591 - 2600 из 2901 записей