📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Attacks and Defenses Against LLM Fingerprinting

2025-08-14

Авторы:

Kevin Kurian, Ethan Holland, Sean Oesch

## Контекст Большие языковые модели (LLM) становятся все более распространенными в различных секторах, включая медицину, финансы и образование. Их мощь и универсальность делают их незаменимыми инструментами в современных технологиях. Однако, при развертывании в системах с тестовым кругом, особенно тех, где конфиденциальность и безопасность ключевые, LLMs подвергаются риску "фингерпринтинга" (Fingerprinting). Это атака, при которой злоумышленники используют выдаваемые моделью ответы для идентификации идентичности модели, тем самым нарушая конфиденциальность разработчика и возможность использования модели в секретных задачах. Необходимость в эффективном способе защиты LLMs от таких атак ведет к возникновению новых методов, призванных обнаруживать и предотвращать такие атаки. ## Метод Для идентификации способов оптимизации фингерпринтинга использовалась методология, основанная на реинфорсментном обучении (Reinforcement Learning, RL). Она позволяет автоматически оптимизировать выбор запросов, что увеличивает точность фингерпринтинга. Эта модель работает с минимальным количеством запросов — 3 — что демонстрирует ее прочность и эффективность. Для защиты от таких атак предложена методика, основанная на пост-обработке ответов модели. Этот метод использует другую LLM для фильтрации выходных данных, поддерживая их семантическую целостность, но при этом маскируя характеристики модели. Эти техники целенаправленно разработаны для создания эффективного компромисса между обеспечением конфиденциальности и сохранением качества выдачи. ## Результаты Эксперименты проводились на разных моделях, используя атакующую RL-модель и защитную фильтрацию в качестве двух главных показателей. Фингерпринтинг-атака значительно повысила свою успешность, при этом используя только 3 запроса, в сравнении с случайным выбором. Защитной модели удалось существенно снизить точность фингерпринтинга, при этом сохранив качество и смысловую целостность ответов. Эти результаты показали, что обе методики эффективны в своих целях: техника атаки улучшила точность, а защитная техника снизила ее, без ущерба для качества ответов. ## Значимость Предложенные техники могут быть применены в различных сценариях, где LLMs применяются в конфиденциальных системах — для обеспечения конфиденциальности, предотвращения утечек информации и защиты от несанкционированного использования моделей. Защитная техника может быть принята во многих системах, где требуется обеспечить конфиденциальность выдаваемых ответов, таких как банко

Annotation:

As large language models are increasingly deployed in sensitive environments, fingerprinting attacks pose significant privacy and security risks. We present a study of LLM fingerprinting from both offensive and defensive perspectives. Our attack methodology uses reinforcement learning to automatically optimize query selection, achieving better fingerprinting accuracy with only 3 queries compared to randomly selecting 3 queries from the same pool. Our defensive approach employs semantic-preservin...

ID: 2508.09021v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 CVCM Track Circuits Pre-emptive Failure Diagnostics for Predictive Maintenance Using Deep Neural Networks

2025-08-14

Авторы:

Debdeep Mukherjee, Eduardo Di Santi, Clément Lefebvre, Nenad Mijatovic, Victor Martin, Thierry Josse, Jonathan Brown, Kenza Saiah

Давайте создадим резюме научной статьи, основываясь на указанных данных. ## Контекст Достоверная и безопасная операция железных дорог зависит от системы сигнализации, такой как track circuits. Они обеспечивают расположение поездов в реальном времени и гарантируют безопасность движения. CVCM (Continuous Variable Current Modulation) — это одна из новейших технологий, используемых для повышения эффективности и устойчивости железнодорожной сигнализации. Однако, как и в любом системе, track circuits могут вызывать проблемы, включая скрытые аномалии, которые могут привести к серьезным катастрофам. Необходимо разработать методы, которые позволят ранней диагностике этих аномалий. Наша мотивация заключается в создании алгоритма, который может предсказывать неисправности до их выявления, чтобы существенно сократить время простоя и уменьшить риск последствий. ## Метод Мы предложили фреймворк, основанный на глубоких нейронных сетях для классификации аномалий в track circuits. Методология включает в себя: использование технологии CVCM, подготовку данных с использованием сигналов сигнализации, настройку нейронной сети с помощью конкретных вычислительных моделей. Мы использовали архитектуру сверточных нейронных сетей (CNN) с адаптивным обучением, чтобы учитывать характеристики сигналов. Далее, мы разработали базу данных с 10 различными случаями неисправностей, выполнили эксперименты на реальных данных. Это позволило нам оценить точность диагностики и уверенность в технике. ## Результаты Мы провели эксперименты с 10 различными случаями неисправностей CVCM, используя данные из разных местоположений. Метод показал 99.31% точности классификации и способность выявлять неисправности в 1% от момента их начала. Мы также использовали технологию conformal prediction, чтобы предоставить сопутствующие оценки неопределенности, достигнув 99% уверенности в классификации. Эти результаты показали, что наш метод превосходит традиционные подходы, способные обнаруживать неисправности только на поздних стадиях. ## Значимость Наша разработка может быть применена для различных железнодорожных систем, включая CVCM и другие типы track circuits. Мы подтвердили, что метод может быть использован для ранней диагностики не только CVCM, но и других сигнализационных систем. Это позволит улучшить процессы материально-технического обслуживания, уменьшить время простоя и снизить риск потерь. Будущие исследования будут ориентированы на расширение функциональности, внедрение в другие типы железнодорожных систем и интеграцию с другими аналитическими инструментами. ## Выводы Мы разработали и проверили

Annotation:

Track circuits are critical for railway operations, acting as the main signalling sub-system to locate trains. Continuous Variable Current Modulation (CVCM) is one such technology. Like any field-deployed, safety-critical asset, it can fail, triggering cascading disruptions. Many failures originate as subtle anomalies that evolve over time, often not visually apparent in monitored signals. Conventional approaches, which rely on clear signal changes, struggle to detect them early. Early identific...

ID: 2508.09054v1 cs.AI, cs.LG, 68T07, 68T05, I.2.6; I.5.1; I.5.4

arXiv PDF

📄 Dynamic Uncertainty-aware Multimodal Fusion for Outdoor Health Monitoring

2025-08-14

Авторы:

Zihan Fang, Zheng Lin, Senkang Hu, Yihang Tao, Yiqin Deng, Xianhao Chen, Yuguang Fang

#### Контекст Отслеживание здоровья вне заменителя (outdoor health monitoring) является критическим для раннего выявления нестабильного состояния здоровья, обеспечивая защиту человеческого здоровья и безопасности. Стандартные подходы к этой задаче основываются на статичных многомодальных рамках с нейронными сетями, требующих огромных объемов данных для обучения. Такой подход не может эффективно учитывать незначительные изменения в состоянии здоровья. Многомодальные модели языка (MLLMs) представляют собой альтернативу, позволяющую тренировать модели на мелких объемах данных, основываясь на предварительно обученных моделях. Однако многомодальные модели для outdoor health monitoring сталкиваются с трудностями: i) входные данные могут содержать шум из-за сбора данных и ненадежности физиологических сигналов при изменении экстерьера; ii) существующие трансформер-модели сталкиваются с проблемами в достижении крепкой мультимодальной интеграции, не способные обрабатывать шумные модальности; iii) различия в шумах модальностей вредят точности восстановления пропущенных данных. Для решения этих проблем предлагается разработка DUAL-Health — динамической неуверенность-акцентированной мультимодальной интеграции. #### Метод Для оценки шума в модальностях разработана методика, которая вычисляет значения неопределенности с помощью текущих и хронологических признаков. Для эффективной мультимодальной интеграции применена технология весовой настройки, которая адаптируется к качеству модальностей. Для совершенствования восстановления данных в случае шумов используется метод выравнивания распределений модальностей в едином семантическом пространстве. Эти шаги обеспечивают высокую точность в детекции и устойчивость модели в трудных условиях. #### Результаты Для исследований использованы данные, содержащие шумовые модальности в различных условиях. Модель DUAL-Health сравнивалась с современными базовыми моделями. Результаты показали, что DUAL-Health превосходит все остальные модели в точности детекции и устойчивости в шумных условиях. Это доказывает эффективность нового подхода в решении проблем мультимодальной обработки данных в outdoor health monitoring. #### Значимость Модель DUAL-Health предлагается для динамических сценариев outdoor health monitoring, в том числе для раннего выявления заболеваний, мониторинга индивидуальных показателей здоровья и создания безопасных систем мониторинга внешних условий. Ее преимущества заключаются в том, что она требует меньших объемов данных для обучения, эффективно обрабатывает шумы и восстанавливает пропущенные данные. Эта модель может стать ключевым инструментом для глубокого мониторинга здоровья вне заменителя. #### Вы

Annotation:

Outdoor health monitoring is essential to detect early abnormal health status for safeguarding human health and safety. Conventional outdoor monitoring relies on static multimodal deep learning frameworks, which requires extensive data training from scratch and fails to capture subtle health status changes. Multimodal large language models (MLLMs) emerge as a promising alternative, utilizing only small datasets to fine-tune pre-trained information-rich models for enabling powerful health status ...

ID: 2508.09085v1 cs.NI, cs.AI, cs.LG

arXiv PDF

📄 LLM Unlearning Without an Expert Curated Dataset

2025-08-13

Авторы:

Xiaoyuan Zhu, Muru Zhang, Ollie Liu, Robin Jia, Willie Neiswanger

## Контекст Современные большие модели языковых моделей (LLM) включают в себя разнообразную информацию, включая секретную, вредоносную или авторские работы, что порождает необходимость в пост-хокских методах удаления конкретных областей знаний из модели без полной переучивания. Одной из основных проблем в этой области является создание эффективных forget-сетей — наборов данных, которые аппроксимируют целевую область знаний и помогают модели "забыть" ее. Традиционно, forget-сети создаются вручную, что требует огромных усилий и ресурсов. В данной работе мы предлагаем автоматизированный подход для создания high-quality forget-сетей с помощью языковых моделей, который позволяет улучшить эффективность и скорость процесса удаления. ## Метод Мы предлагаем метод, основанный на структурированной просмотриваемости языковых моделей, для генерации forget-сетей. Наш подход предполагает использование лишь доменного имени, чтобы сгенерировать книгоподобные данные. Мы вводим многошаговую генерацию, включающую в себя шаги, такие как генерация текстов, форматирование и настройка. Этот подход гарантирует высокую разнообразие генерируемых данных, что позволяет повысить качество и эффективность удаления. Метод автоматизируется и может быть использован для множества различных областей знаний. ## Результаты Мы проводили эксперименты на трех областях знаний: биобезопасности, цифровой безопасности и фантастических рассказов Harry Potter. Мы сравнили наш подход с традиционными forget-сетями, созданными вручную. Наши результаты показали, что генерируемые данные показывают высокую эффективность и схожесть с экспертно-созданными данными, при этом ими могут управлять даже не специалисты. Факторы, такие как разнообразие данных и многошаговая генерация, оказались ключевыми для достижения такого уровня качества. ## Значимость Наш подход может быть применен в различных областях, где необходимо удалить конкретные знания из модели без повторного обучения. Мы показали, что наш метод может работать как с цифровой безопасностью, так и с биобезопасностью, и даже с рассказами. Этот подход предлагает стоимость, эффективность и масштабируемость, чем открывает широкие возможности для практического применения в широком круге областей. ## Выводы Мы доказали, что наш подход предлагает простоту и эффективность для создания forget-сетей, созданных автоматически. Мы показали, что наш метод не только позволяет удалять знания из моделей, но и может быть применен в различных сферах, что делает его отличным инструментом для управления знаниями в технологиях бо

Annotation:

Modern large language models often encode sensitive, harmful, or copyrighted knowledge, raising the need for post-hoc unlearning-the ability to remove specific domains of knowledge from a model without full retraining. A major bottleneck in current unlearning pipelines is constructing effective forget sets-datasets that approximate the target domain and guide the model to forget it. In this work, we introduce a scalable, automated approach to generate high-quality forget sets using language mode...

ID: 2508.06595v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 GLIDR: Graph-Like Inductive Logic Programming with Differentiable Reasoning

2025-08-13

Авторы:

Blair Johnson, Clayton Kerce, Faramarz Fekri

## Контекст Differentiable inductive logic programming (ILP) техники показали себя эффективными в решении задач link prediction и node classification на knowledge graphs. Однако их подход с ограниченной структурой правил в виде цепочки (chain-like) ограничивает их результативность и интерпретируемость. Настоящая работа направлена на развитие более выразительных методов логического программирования, которые могут эффективно обрабатывать более сложные задачи. ## Метод Метод GLIDR (Graph-Like Inductive Logic Programming) представляет собой расширенный подход к differentiable inductive logic programming. Он представляет правила в виде графов, позволяя учитывать более выразительные синтаксические конструкции, такие как ветви и циклы. GLIDR основывается на алгоритме differentiable message passing, который обобщает предыдущие цепные подходы к логическому программированию. Архитектура GLIDR характеризуется параметризированным простым поисковым пространством, ограниченным максимальным количеством свободных переменных в правиле. Экспериментально показано, что этот подход обеспечивает высокую гибкость и точность при решении различных задач. ## Результаты Говорится о выполнении экспериментов с использованием различных datasets, в том числе knowledge graphs. Метод GLIDR показал значительное превосходство по сравнению с другими rule-based methods в задачах completion. Также демонстрируется, что GLIDR сохраняет высокую точность даже при шумных данных и в сравнении с embedding-based methods. Эксперименты подтверждают возможность использования GLIDR в более широких задачах, в том числе с deep neural networks. ## Значимость Работа GLIDR открывает новые возможности в задачах knowledge graph completion и других задачах, требующих выразительных логических правил. Он имеет высокую практическую значимость в областях, где необходимы точные и интерпретируемые правила. Благодаря своему модульному подходу, GLIDR может быть интегрирован с deep learning и другими методами, что позволяет расширять его применение на различные data modalities. ## Выводы GLIDR оказался значительно эффективнее по сравнению с существующими rule-based и embedding-based approaches в задачах knowledge graph completion. Настоящая работа открывает путь к дальнейшим исследованиям в области differentiable inductive logic programming, в том числе расширению возможностей GLIDR для работы с более сложными data modalities и приложениями.

Annotation:

Differentiable inductive logic programming (ILP) techniques have proven effective at finding approximate rule-based solutions to link prediction and node classification problems on knowledge graphs; however, the common assumption of chain-like rule structure can hamper the performance and interpretability of existing approaches. We introduce GLIDR, a differentiable rule learning method that models the inference of logic rules with more expressive syntax than previous methods. GLIDR uses a differ...

ID: 2508.06716v1 cs.AI, cs.LG, cs.LO

arXiv PDF

📄 ParBalans: Parallel Multi-Armed Bandits-based Adaptive Large Neighborhood Search

2025-08-13

Авторы:

Alican Yilmaz, Junyang Cai, Serdar Kadioglu, Bistra Dilkina

## Контекст Область исследования — решение сложных Mixed-Integer Programming (MIP) задач, которые часто требуют огромных вычислительных ресурсов из-за сложности их комбинаторного характера. Одним из подходов к ускорению решения таких задач является параллельное выполнение, позволяющее эффективно использовать ресурсы многоядерных процессоров или кластеров. Несмотря на то, что параллельные методы уже применяются в многих алгоритмах, их потенциал в адаптивных подходах, таких как Balans (Multi-Armed Bandits-based Adaptive Large Neighborhood Search), до сих пор не был полностью использован. Баланс между эффективностью и сложностью вычислений в таких методах остается центральной проблемой для решения трудных MIP-задач. ## Метод Методология основывается на расширении Balans, названном ParBalans, который вводит два уровня параллелизма: **solver-level** и **algorithmic-level**. **Solver-level parallelism** обеспечивает параллельное запуское нескольких решателей на разных ядрах, что позволяет распараллелить вычисления в рамках каждого параллельного эксперимента. **Algorithmic-level parallelism**, в свою очередь, добавляет возможность параллельно оценивать различные стратегии решения в рамках одного запуска решателя. Эта модель позволяет эффективно использовать ресурсы, разбив поиск решения на независимые подпроцессы. ## Результаты Опытные исследования проводились на наборе трудных MIP-задач, включая стандартные бенчмарки из литературы. Решатель ParBalans был сравнен с коммерческим solver-ом Gurobi, запускаемым на одном и том же оборудовании. Результаты показали, что ParBalans состязательно выполняется с Gurobi на этих трудных задачах, и, в некоторых случаях, даже показывает лучшую эффективность, особенно при высоких нагрузках. Это достигается благодаря распараллеливанию вычислений и уменьшению времени ожидания в некоторых сценариях. ## Значимость Параллельный подход ParBalans может быть применен в различных областях, где требуется решение MIP-задач, например, в логистике, энергетике, информационных системах. Одним из основных преимуществ является ускорение вычислений, что позволяет решать более сложные задачи в меньший срок. Благодаря параллельности, ParBalans демонстрирует потенциал для решения реальных, "хардкорных" задач, где повышенная скорость и точность решения критичны. ## Выводы Результаты параллельного подхода ParBalans показали свою эффективность в решении трудных MIP-задач, сравнившись с Gurobi. Будущие исследования будут сфокусированы на улучшении параллельной стратегии, внедрении более сложных моделей параллельного поиска и расширении приложений ParBalans в различных сферах, где высокая скорость решения является критичной. Это открывает путь к еще более

Annotation:

Solving Mixed-Integer Programming (MIP) problems often requires substantial computational resources due to their combinatorial nature. Parallelization has emerged as a critical strategy to accelerate solution times and enhance scalability to tackle large, complex instances. This paper investigates the parallelization capabilities of Balans, a recently proposed multi-armed bandits-based adaptive large neighborhood search for MIPs. While Balans's modular architecture inherently supports parallel e...

ID: 2508.06736v1 cs.AI, cs.LG

arXiv PDF

📄 Learning Causal Structure Distributions for Robust Planning

2025-08-13

Авторы:

Alejandro Murillo-Gonzalez, Junhong Xu, Lantao Liu

## Контекст Структурные казуальные модели (Structural Causal Models, SCM) широко используются в робототехнике для описания взаимодействий компонентов системы. Они содержат информацию об интерактивных параметрах (структурной части) и о том, как эти параметры взаимодействуют (функциональная часть). Однако существуют проблемы с неопределенностью о структуре, вывод которой требует особого внимания. Традиционные методы обучения моделей часто игнорируют структуру, что приводит к менее точным и надежным моделям ра dy namics. Эта неточность может оказаться критичной в сложных реальных условиях. Данная работа рассматривает возможность учета неопределенности о структуре при обучении моделей, чтобы повысить их устойчивость и эффективность в реальном мире. ## Метод Методология основывается на оценке дистрибуции структурных моделей (Causal Structure Distribution, CSD), которая генерирует вариации структурных моделей с учетом их неопределенности. Данная дистрибуция используется для сэмплирования структурных графов, которые включаются в входной вектор для модели. Эта модель представляет собой проблему обучения динамики с помощью проблемы многозадачного обучения (Multi-Task Learning, MTL) с использованием encoder-multidecoder probabilistic model. Энкодер представляет собой нейронную сеть, которая выводит вариации структурных моделей, а многодекодеры предсказывают соответствующие динамики. Метод работает в режиме реального времени, обеспечивая адаптивность и значительно меньшую вычислительную нагрузку. ## Результаты Исследования проводились на моделях руководящих манипуляторов и мобильных роботов, как в симуляционной среде, так и в реальном мире. Метод показал значительное улучшение устойчивости динамических моделей, даже при поврежденных входных данных и изменениях в окружении. Например, работа в реальном мире показала, что модель может научиться планировать новые задачи в новых условиях. Оценка показала, что модель требует меньше ресурсов и показывает высокую производительность, в то время как методы без учета структуры проваливаются в сложных сценариях. ## Значимость Метод может быть применен в области управления роботами, в том числе для оптимизации динамики и увеличения надежности в реальных условиях. Он предоставляет преимущество в плане учета неопределенности в структуре, что недоступно многим другим моделям. Это может использоваться для улучшения планирования и реакции на изменения в реальном мире, что важно для роботов, работающих в нетипичных или нестабильных условиях. ## Выводы Работа показывает, что учитывание структурных моделей с неопределенностью дает более надежные модели динамик. Это отк

Annotation:

Structural causal models describe how the components of a robotic system interact. They provide both structural and functional information about the relationships that are present in the system. The structural information outlines the variables among which there is interaction. The functional information describes how such interactions work, via equations or learned models. In this paper we find that learning the functional relationships while accounting for the uncertainty about the structural ...

ID: 2508.06742v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Pushing the Envelope of LLM Inference on AI-PC

2025-08-13

Авторы:

Evangelos Georganas, Dhiraj Kalamkar, Alexander Heinecke

## Контекст Сложность и высокая стоимость работы с традиционными трансформационными моделями языков (LLM) ограничивают их приложения в ресурс-критических средах, таких как edge devices и AI PCs. Однако недавние достижения в области quantization (сжатия моделей), позволяющие создавать ultra-low-bit LLM с точностью и end-task performance, приближающейся к full-precision моделям, открывают новые пути к интересующим средам. Тем не менее, текущие state-of-the-art (SOTA) inference runtimes для таких моделей недостаточно эффективны, что ограничивает потенциал таких разработок в средах с ограниченными ресурсами. В настоящей работе рассматривается стремление к оптимизации этих технологий, чтобы раскрыть их потенциал в реальной среде. ## Метод Мы реализуем 1- и 2-bit microkernels, оптимизированные для современных CPU, чтобы добиться максимальной вычислительной эффективности. Эти микроядра интегрируются в SOTA LLM inference framework PyTorch-TPP. Используя модели с 2-битным сжатием, мы сравниваем их производительность с 16-битными и SOTA runtime bitnet.cpp. Этот подход позволяет экспериментировать с различными CPU-платформами и обеспечивает полное оценивание интересующих нас результатов. ## Результаты Наши 1- и 2-bit microkernels показали значительные выигрыши в производительности по сравнению с 16-битными моделями и SOTA runtime bitnet.cpp. Мы достигли скорости выполнения (speedup) до 7x в сравнении с 16-битными моделями и до 2.2x по сравнению с bitnet.cpp. Эти результаты достигаются благодаря оптимизированному процессу quantization и микроядерной оптимизации, которые особенно эффективны на ресурс-критичных системах. ## Значимость Наш подход открывает новые возможности для эффективного использования ultra-low-bit LLM на edge devices и AI PCs. Значительное увеличение скорости и энергоэффективности делает такие модели более доступными для реализации в реальных средах. Это может привести к новым приложениям в области языковых моделей, таких как встраиваемые системы, видеонаблюдение и другие AI-enabled системы. ## Выводы Мы показали, что с помощью оптимизированного microkernel design и SOTA framework PyTorch-TPP можно достичь высокой производительности для ultra-low-bit LLM на AI PCs и edge devices. Это работа открывает новые пути для будущих исследований в области эффективного LLM inference в ресурс-критичных средах.

Annotation:

The advent of ultra-low-bit LLM models (1/1.58/2-bit), which match the perplexity and end-task performance of their full-precision counterparts using the same model size, is ushering in a new era of LLM inference for resource-constrained environments such as edge devices and AI PCs. While these quantization advances promise models that are more cost-effective in terms of latency, memory, throughput, and energy consumption, the computational efficiency of state-of-the-art (SOTA) inference runtime...

ID: 2508.06753v1 cs.AI, cs.LG, cs.PF

arXiv PDF

📄 BiXSE: Improving Dense Retrieval via Probabilistic Graded Relevance Distillation

2025-08-13

Авторы:

Christos Tsirigotis, Vaibhav Adlakha, Joao Monteiro, Aaron Courville, Perouz Taslakian

#### Контекст Отношение "семантического поиска" к "информационному поиску" в целом можно сравнить со связью "экзотической кухни" к "повседневной кухне" — оно новое, сложное и еще не достигло широкого распространения. Dense retrieval, являющийся одним из основных компонентов semantic search, широко применяется в системах веб-поиска и корпоративных системах, но существуют проблемы с его эффективностью. Большинство существующих моделей для обучения dense retrieval полагаются на бинарные метки релевантности, где каждая пара "запрос-документ" либо релевантна, либо нет. Этот подход игнорирует тот факт, что релевантность часто субъективна и может быть представлена на промежуточном уровне. Более того, LLMs (large language models) стали позволять генерировать fine-grained релевантности, что может улучшить обучение моделей. Таким образом, целью данного исследования является разработка метода, который мог бы использовать эти промежуточные метки релевантности для повышения точности и стоимости обучения моделей. #### Метод Предлагаемый подход, названный BiXSE (Binary Cross-Entropy over LLM-Generated Graded Relevance), является простым и эффективным методом обучения, который использует binary cross-entropy (BCE) для оптимизации LLM-generated graded relevance scores. Эти scores подразумевают промежуточные значения релевантности, которые могут быть представлены в виде вероятностей. BiXSE игнорирует сложные подходы, такие как pairwise и listwise losses, которые требуют множества меток релевантности для каждого запроса. Вместо этого оно использует in-batch negatives, что позволяет эффективно обучать модель с меньшими затратами на аннотации и вычисления. Эта модель преобразует вероятности во финальные предсказания, используя техники, которые становятся возможными благодаря последним разработкам в области LLMs. #### Результаты Чтобы проверить эффективность BiXSE, проведены испытания на нескольких наборах данных, таких как MMTEB (для sentence embedding) и BEIR, TREC-DL (для retrieval). В этих экспериментах BiXSE показала себя лучше, чем модели, основанные на softmax-based contrastive learning (InfoNCE). Более того, BiXSE показала почти такие же результаты, как и модели с pairwise ranking, но с значительно меньшими затратами на обучение. Это означает, что BiXSE может предоставить мощный и эффективный метод для обучения dense retrieval с помощью LLM-supervised data, уменьшая необходимость в многочисленных метках релевантности и улучшая общую эффективность. #### Значимость Предложенный подход имеет широкие области применения, включая веб-поиск, корпоративные системы поиска и даже медицинские системы, где требуется точный semantic search. Одним из основных преимуществ BiXSE является своя экономичность, так как он требует меньшего количества аннотаций и ресурсов для обучения. Это может привести к созда

Annotation:

Neural sentence embedding models for dense retrieval typically rely on binary relevance labels, treating query-document pairs as either relevant or irrelevant. However, real-world relevance often exists on a continuum, and recent advances in large language models (LLMs) have made it feasible to scale the generation of fine-grained graded relevance labels. In this work, we propose BiXSE, a simple and effective pointwise training method that optimizes binary cross-entropy (BCE) over LLM-generated ...

ID: 2508.06781v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 Geometry-Aware Spiking Graph Neural Network

2025-08-13

Авторы:

Bowen Zhang, Genan Dai, Hu Huang, Long Lan

## Контекст Граф-структурированные данные широко распространены во многих областях, включая социальные сети, биологию и физику. Графы представляют собой мощный инструмент для представления и анализа таких структур. Графовые нейронные сети (GNNs) позволяют эффективно моделировать данные с такой структурой, однако многие из них оперируют в евклидовом пространстве и прибегают к фиксированным геометрическим предположениям. Эти ограничения порождают проблемы при моделировании графов с сложными структурами, такими как циклы и иерархии. Нейронные сети на основе спайков (SNNs), в свою очередь, обеспечивают высокую энергоэффективность за счет спарсинговой, событий-дривенной компьютеризации. Однако их способность работать с графами ограничена. Данный подход предлагает решение, которое объединяет преимущества GNNs и SNNs, адаптируясь к нейронным сетям сложной геометрии. ## Метод Предложенный подход, Geometry-Aware Spiking Graph Neural Network (\method{}), является инновационным подходом к моделированию графов, комбинирующий нейронные сети на основе спайков с адаптивным обучением в окружении поверхностей невырожденной кривизны. Метод состоит из трех основных компонентов: 1. **Riemannian Embedding Layer**: эта слой адаптивно преобразует входные данные в пространство геометрических поверхностей с заданной кривизной, позволяя эффективно представлять нейронные сети, ориентированные на сложные структуры. 2. **Manifold Spiking Layer**: этот слой осуществляет спайковые вычисления в невырожденных пространствах, используя геометрически точные методы агрегации соседей и кривизны, гарантируя таким образом гибкость и точность моделирования. 3. **Manifold Learning Objective**: этот объектив обеспечивает настройку геометрии для каждого примера, объединяя классификацию и прогнозирование связей с помощью геодезических расстояний. Training происходит с использованием Riemannian SGD, что позволяет избежать backpropagation через время, упрощая процесс обучения. ## Результаты Эксперименты проводились на нескольких бенчмарк-данных, включая сложные графы с иерархическими структурами. Результаты показали, что \method{} превосходит обычные GNNs и SNNs как по точности, так и по энергоэффективности. Адаптивность к кривизне позволила ему эффективно работать с нелинейными геометрическими структурами, что демонстрирует переломный характер в области граф-моделирования. ## Значимость Данный подход может быть использован в некоторых критически важных областях, таких как моделирование биологических систем, паттернов в социальных сетях и анализ взаимосвязей в биомедицине. Он предоставляет высокую энер

Annotation:

Graph Neural Networks (GNNs) have demonstrated impressive capabilities in modeling graph-structured data, while Spiking Neural Networks (SNNs) offer high energy efficiency through sparse, event-driven computation. However, existing spiking GNNs predominantly operate in Euclidean space and rely on fixed geometric assumptions, limiting their capacity to model complex graph structures such as hierarchies and cycles. To overcome these limitations, we propose \method{}, a novel Geometry-Aware Spiking...

ID: 2508.06793v1 cs.NE, cs.AI, cs.LG

arXiv PDF

1
2
157
158
159
160
161
168
169

Показано 1581 - 1590 из 1687 записей