📚 Саммари научных статей из arXiv

Найдено 1693 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 AudioCodecBench: A Comprehensive Benchmark for Audio Codec Evaluation

2025-09-05

Авторы:

Lu Wang, Hao Chen, Siyu Wu, Zhiyue Wu, Hao Zhou, Chengfeng Zhang, Ting Wang, Haodi Zhang

#### Контекст За последние годы Multimodal Large Language Models (MLLMs) нашли широкое применение в различных областях, включая обработку речи и музыки. Это дало подтолкнение к развитию аудиотокенизации, которая является ключевым компонентом для эффективного интегрирования сложных моделей. Отличительная особенность аудиотокенов заключается в том, что они должны не только передавать глобальный смысл, но и сохранять тонкие акустические детали. Эта способность делает их полезными для работы с речью и музыкой в широком кругу приложений. Однако существующие подходы к определению токенов и их оценке ограничиваются конкретными областями, такими как реконструкция или автоматическое распознавание речи (ASR), что не позволяет провести систематическую и справедливую оценку кодеков. В этой работе мы призваны предложить точные определения токенов, а также разработать общую методологию для полного оценивания аудиокодеков. #### Метод Мы предлагаем **AudioCodecBench** — систематическую методологию для оценки кодеков аудио. Методология основывается на четырёх основных измерениях: 1) **метрики аудиореконструкции** для оценки качества воспроизведения звука, 2) **стабильность кодеков** (codebook index stability), которая измеряет стабильность идентификаторов в кодексе, 3) **проницательность декодера-только трансформера**, которая оценивает потенциал кодека в различных низкоуровневых задачах, и 4) **задачи дорожки (downstream tasks)**, которые измеряют практическое применение кодеков в реальных ситуациях. Данный подход позволяет не только сравнить кодеки в разных областях, но и выявить связи между этими параметрами. #### Результаты Мы провели эксперименты с различными кодеками на основе приведенной методологии. Оценивали такие кодеки, как JND-Net, Lycos, L3-Net и др. Зарегистрированы следующие результаты: 1) кодеки показали различную эффективность в разных метриках: лучше всего отображались на переменной точности реконструкции; 2) стабильность кодеков (кодеков index stability) отличается в зависимости от метода токенизации; 3) проницательность декодера-только трансформера взаимосвязана с качеством реконструкции и стабильностью кодека. Полученные результаты подтверждают правильность определений токенов и позволяют выявить взаимосвязи между различными аспектами оценки. #### Значимость Разработанная методология имеет широкое применение в разных областях, включая развитие звуковых систем в MLLMs, улучшение аудио-сетей для речи и музыки, а также в приложениях, требующих точного анализа звуковых сигналов. Одним из основных преимуществ является то, что этот подход позволяет проводить систематическую и справедливую оценку кодеков, что

Annotation:

Multimodal Large Language Models (MLLMs) have been widely applied in speech and music. This tendency has led to a focus on audio tokenization for Large Models (LMs). Unlike semantic-only text tokens, audio tokens must both capture global semantic content and preserve fine-grained acoustic details. Moreover, they provide a discrete method for speech and music that can be effectively integrated into MLLMs. However, existing research is unsuitable in the definitions of semantic tokens and acoustic ...

ID: 2509.02349v2 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 Ordinal Adaptive Correction: A Data-Centric Approach to Ordinal Image Classification with Noisy Labels

2025-09-05

Авторы:

Alireza Sedighi Moghaddam, Mohammad Reza Mohammadi

#### Контекст Обучение супервизионных нейронных сетей в задачах компьютерного зрения требует больших объемов качественно отмеченных данных. Однако обработка и отметка изображений, особенно при определении ординальных классов, где границы классов неясны, часто приводит к ошибкам и шуму в меток. Этот шум может существенно снизить точность и достоверность моделей глубокого обучения. В данной работе авторы сосредоточились на задаче обнаружения и исправления шума в метках при ординальной классификации изображений. #### Метод Предложен метод ORDinal Adaptive Correction (ORDAC), основанный на Label Distribution Learning (LDL). Данный подход адаптивно исправляет метки во время обучения, динамически устанавливая среднее и стандартное отклонение распределения меток для каждого примера. Это позволяет использовать весь набор данных, включая потенциально шумные метки, вместо их отбрасывания. ORDAC отличается гибкостью и устойчивостью к различным видам шума в метках. Метод был развит в рамках расширенных версий ORDAC_C и ORDAC_R, учитывающих дополнительные характеристики данных. #### Результаты Эксперименты проводились на двух бенчмарковых датасетах: для оценки возраста (Adience) и детекции степени заболевания диабетической ретинопатии. Шумовые метки симулировались асимметричным гауссовым шумом. Результаты показали, что ORDAC существенно улучшает показатели моделей: на датасете Adience с 40% шума, ORDAC_R снизил среднюю абсолютную ошибку с 0.86 до 0.62 и увеличил метрику реколл с 0.37 до 0.49. Также была продемонстрирована эффективность метода в устранении внутреннего шума в оригинальных данных. #### Значимость Предложенный подход может быть применен в задачах, где метоки изображений шумообъемлемы или неточны. Он обеспечивает улучшение качества и надёжности моделей, уменьшая влияние шума. Особенно актуален ORDAC для задач, где классы имеют естественную последовательность, таких как возрастная оценка или степень заболеваний. Работа открывает пути для будущих исследований в области адаптивной коррекции меток и использования LDL в обучении с шумом. #### Выводы Результаты показывают, что ORDAC, ORDAC_C и ORDAC_R эффективно исправляют шум в метках и повышают точность моделей в задачах ординальной классификации. Данный подход является основополагающим для повышения устойчивости моделей к шуму в метках и открывает пути для дальнейшего исследования методов LDL в обучении с неточными метками.

Annotation:

Labeled data is a fundamental component in training supervised deep learning models for computer vision tasks. However, the labeling process, especially for ordinal image classification where class boundaries are often ambiguous, is prone to error and noise. Such label noise can significantly degrade the performance and reliability of machine learning models. This paper addresses the problem of detecting and correcting label noise in ordinal image classification tasks. To this end, a novel data-...

ID: 2509.02351v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators

2025-09-05

Авторы:

Dani Roytburg, Matthew Bozoukov, Matthew Nguyen, Jou Barzdukas, Simon Fu, Narmeen Oozeer

## Контекст В последние годы large language models (LLMs) становятся все более популярными как автоматизированные оценщики, используемые для различных задач, включая принятие решений и оценку качества. Однако эти модели часто страдают от "самопредпочтения" — склонности предпочитать свои собственные ответы другим моделям или данным. Эта проблема называется "self-preference bias" и является критическим недостатком для их использования в таких областях, как приемление предпочтений и маршрутизация моделей. Это может привести к несправедливости и нестабильности в результатах. Наша мотивация заключается в изучении и устранении этого биаса с использованием легких методов, которые могут быть применены непосредственно во время выполнения без необходимости переучивать модель. ## Метод Мы привлекли двухмерную методологию для точечного определения и контроля самопредпочтения. Основной фокус был на методике **Contrastive Activation Addition (CAA)**, которая включает в себя добавление мелких векторов направлений в пространство представлений модели. Мы также использовали оптимизационный подход, нацеленный на нахождение наилучших векторов направлений, которые могут снизить самопредпочтение без необходимости переучивать модель. Мы применили эти методы к данным, полученным из наших экспериментов с разными моделями и задачами, чтобы измерить эффективность нашего подхода. ## Результаты Мы провели эксперименты на curated dataset, разделенном на две категории: "justified" и "unjustified" self-preference. Наши результаты показали, что CAA и оптимизационный подход могут снизить незаконное самопредпочтение до 97%, что значительно превосходит базовые подходы, такие как prompting и direct preference optimization. Тем не менее, мы обнаружили, что steering vectors оказываются нестабильными при работе с безупречным самопредпочтением и безубезумными согласиями, что подчеркивает линейную или многомерную природу самопредпочтения. ## Значимость Наш подход продемонстрировал сильный потенциал в решении проблемы self-preference bias в LLM-based evaluators. Это может быть применено в области принятия решений, где необходимо обеспечить нейтральность и объективность. Кроме того, наша работа может способствовать развитию более справедливых и надежных систем оценки. ## Выводы Мы убедились, что steering vectors могут значительно снизить самопредпочтение в LLM-моделях, но они не являются идеальным решением для всех видов самопредпочтения. Наша работа открывает новые трудности и направления для будущих исследований, включая развитие более сложных методов для более точного детектирования и устранения различных типов самопредпочтения в моделях.

Annotation:

Large language models (LLMs) increasingly serve as automated evaluators, yet they suffer from "self-preference bias": a tendency to favor their own outputs over those of other models. This bias undermines fairness and reliability in evaluation pipelines, particularly for tasks like preference tuning and model routing. We investigate whether lightweight steering vectors can mitigate this problem at inference time without retraining. We introduce a curated dataset that distinguishes self-preferenc...

ID: 2509.03647v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning

2025-09-05

Авторы:

Antonio Guillen-Perez

#### Контекст Автоматизированная планировка маршрутов является ключевым компонентом систем автономного управления транспортом. Одной из основных задач является генерация разнообразных и реалистичных дистрибуций будущих маршрутов, чтобы обеспечить безопасность и эффективность движения. Несмотря на прогресс в генеративных моделях, существуют трудности в достижении высокой точности, высокой эффективности и контроля над траекториями. Этот аспект является критическим для создания надежных систем планирования для автономных транспортных средств. #### Метод Мы предлагаем **Efficient Virtuoso** — усовершенствованную модель на основе трансформера, работающую в низкоразмерном латентном пространстве. Модель использует уникальную двухэтапную нормализацию для подготовки данных. В первом этапе масштабируются траектории, чтобы сохранить их геометрический аспект, а затем вторично нормализуется латентное пространство PCA для обеспечения стабильности обучения. В ходе денойсинга в этом низкоразмерном пространстве используется простая MLP-денойзер, которая принимает в качестве входа контекст сцены, обрабатываемый мощным Transformer-based StateEncoder. #### Результаты Проведенные эксперименты показали, что Efficient Virtuoso достигает состояния лидера на Waymo Open Motion Dataset, показывая минимальную ошибку по декарсиану (minADE) равную 0,25. Аблационные исследования подтвердили важность различных аспектов конструкции модели. Особое внимание было уделено репрезентации целей (goal representation). Было выявлено, что единственное место назначения (endpoint goal) может устранить стратегическую неоднозначность, но для точного и высококачественного эмулирования траекторий, подобных людскому вождению, необходим более широкий, многошаговый спарский маршрут. #### Значимость Предложенная модель обладает широкими возможностями применения в области автоматизированного управления транспортом. Она обеспечивает высокую эффективность и гибкость в генерации траекторий, что может улучшить безопасность и эффективность движения автомобилей. Благодаря своей структуре, модель может быть легко адаптирована к различным условиям движения и сценариям. Это делает ее полезной для реализации в системах самоводившихся машин и системах поддержки решений для водителей. #### Выводы Мы представили Efficient Virtuoso — мощную и эффективную модель для планирования траекторий, которая достигла высоких результатов на сложных данных о маршрутах. Наши результаты раскрывают важность точной репрезентации целей для повышения точности выполнения. Будущие исследования будут сфокусированы на расширении модели для более

Annotation:

The ability to generate a diverse and plausible distribution of future trajectories is a critical capability for autonomous vehicle planning systems. While recent generative models have shown promise, achieving high fidelity, computational efficiency, and precise control remains a significant challenge. In this paper, we present the \textbf{Efficient Virtuoso}, a conditional latent diffusion model for goal-conditioned trajectory planning. Our approach introduces a novel two-stage normalization p...

ID: 2509.03658v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Do LLMs Adhere to Label Definitions? Examining Their Receptivity to External Label Definitions

2025-09-05

Авторы:

Seyedali Mohammadi, Bhaskara Hanuma Vedula, Hemank Lamba, Edward Raff, Ponnurangam Kumaraguru, Francis Ferraro, Manas Gaur

## Контекст Сложные нейронные сети, такие как генеративные модели и семантические локальные модели (LLM), достигли впечатляющих результатов в области обработки естественного языка. Однако поведение этих моделей часто остается непредсказуемым, особенно когда им предлагаются внешние данные или определения. Это становится критически важной проблемой при использовании таких моделей в критически важных задачах, таких как генерация медицинских отчетов или юридических документов. Насколько хорошо LLM прислушиваются к внешним определениям, а не доверяют своим внутренним представлениям? Этот вопрос приобретает ключевое значение при поиске решений, которые могут обеспечить более транспарентное и предсказуемое взаимодействие с моделями. Мотивирует эти рассмотрения актуальность задачи глубокого понимания и контроля поведения моделей в различных условиях. ## Метод Для изучения влияния внешних определений на модели LLM проводятся контролируемые эксперименты с использованием нескольких тестовых наборов данных, охватывающих общие и домен-специфические задачи. Модели подвергаются тестированию в условиях различных определений ярлыков (labels), включая экспертно-подготовленные, генерируемые LLM, подложенные (perturbed) и замененные ярлыки. Это позволяет оценивать, насколько эффективно модели интегрируют внешние определения в свое решающее процесс, и тщательно рассматриваются результаты с точки зрения точности и понятности. Далее, проводятся аналитические процедуры для изучения относительного вклада внешних определений в работу модели, а также для выявления мотивов, по которым модели могут прибегать к их внутренним представлениям вместо внешних определений. ## Результаты Эксперименты показали, что LLM могут существенно повысить точность и понятность решений при использовании внешних определений, но это не гарантируется во всех случаях. На общих задачах модели часто прибегают к внутренним представлениям, в то время как в домен-специфических задачах внешние определения демонстрируют более выраженный эффект. Однако, даже в случае домен-специфических задач, LLM могут придерживаться внутренних представлений, если они считают, что внешние определения недостаточно точные или неполные. Это подтверждает, что модели, несмотря на внешние вклады, часто остаются зависимыми от своих предварительно обученных структур. ## Значимость Полученные результаты имеют большое значение в сфере глубокого обучения и применений моделей в критически важных областях, таких как медицина, право и финансы. Исследование показывает, что внешние определения могут не только улуч

Annotation:

Do LLMs genuinely incorporate external definitions, or do they primarily rely on their parametric knowledge? To address these questions, we conduct controlled experiments across multiple explanation benchmark datasets (general and domain-specific) and label definition conditions, including expert-curated, LLM-generated, perturbed, and swapped definitions. Our results reveal that while explicit label definitions can enhance accuracy and explainability, their integration into an LLM's task-solving...

ID: 2509.02452v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 MLP-Offload: Multi-Level, Multi-Path Offloading for LLM Pre-training to Break the GPU Memory Wall

2025-09-05

Авторы:

Avinash Maurya, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae

## Контекст Обучение глубоких машинных сетей становится все более сложным из-за постоянного увеличения размеров глубоких нейронных сетей. Этот рост быстрее происходит, чем развитие технических решений, в частности, расширения памяти GPU. Таким образом, тренировка моделей, превышающих объем доступной памяти GPU, становится задачей, требующей разработки эффективных методов. Одним из ключевых подходов является использование многоуровневых стратегий оффлоада, включающих в себя использование различных типов памяти и дисков. Однако, несмотря на то, что такие методы могут оптимизировать частично процесс тренировки, они часто влияют на накопление оверхедов, в том числе из-за типичных ограничений в скорости доступа к памяти и диску. Данная работа ориентирована на разработку нового метода, который бы минимизировал эти проблемы и позволил эффективно обучать модели, превышающие размеры обычного GPU. ## Метод Методология MLP-Offload основывается на многоуровневой стратегии оффлоада, которая предлагает разделение данных по нескольким уровням хранения, включая CPU, GPU и внешнюю память. Технически, MLP-Offload использует оптимизированную стратегию асинхронного чтения и записи, чтобы минимизировать оверхеды в процессе обучения. Особенностью этого подхода является использование многопутевого оффлоада, которое позволяет синхронизировать работу нескольких GPU без необходимости ожидания завершения операций ввода-вывода. Также, проект использует техники кэширования и управления конкурентностью, чтобы обеспечить быструю и эффективную обработку данных. Такой метод позволяет уменьшить влияние I/O-оверхедов на общий процесс обучения, сохранив высокую производительность. ## Результаты Набор экспериментов проводился на моделях с размерами до 280 миллиардов параметров. Оценка производительности показала, что MLP-Offload уменьшает время итерации обучения в среднем в 2,5 раза по сравнению с другими технологиями, такими как ZeRO. Это достигается благодаря эффективному управлению вводом-выводом, которое минимизирует задержки в обработке данных. Также были измерены ресурсоемкость и общее влияние на систему, показав, что MLP-Offload не только улучшает скорость, но и эффективно использует доступные ресурсы. ## Значимость MLP-Offload имеет значительное значение для обучения глубоких нейронных сетей, особенно для моделей, превышающих размеры доступной GPU-памяти. Он может быть применен в сценариях с ограниченными ресурсами, включая обучение моделей для машинного обучения в облачных сервисах и высокопроизводительных вычислениях.

Annotation:

Training LLMs larger than the aggregated memory of multiple GPUs is increasingly necessary due to the faster growth of LLM sizes compared to GPU memory. To this end, multi-tier host memory or disk offloading techniques are proposed by state of art. Despite advanced asynchronous multi-tier read/write strategies, such offloading strategies result in significant I/O overheads in the critical path of training, resulting in slower iterations. To this end, we propose MLP-Offload, a novel multi-level, ...

ID: 2509.02480v1 cs.DC, cs.AI, cs.LG, H.2.0; E.2; I.2.11

arXiv PDF

📄 Lattice Annotated Temporal (LAT) Logic for Non-Markovian Reasoning

2025-09-05

Авторы:

Kaustuv Mukherji, Jaikrishna Manojkumar Patil, Dyuman Aditya, Paulo Shakarian, Devendra Parkar, Lahari Pokala, Clark Dorman, Gerardo I. Simari

## Контекст Область исследования, связанная с логикой, непрерывно развивается, с целью улучшения моделей открытых миров, включая те, что используются для распределенных систем и систем решения задач в игровых пространствах. Одной из ключевых проблем в этой области является недостаточность традиционных моделей поддержки надежных открытых миров, которые могут обрабатывать не только информацию о действиях, но и временную информацию, необходимую для написания логики, которая может справиться с динамическими и неопределенными условиями. Это приводит к необходимости в развитии новых подходов, которые могут объединять мощные методы рассуждения с гибкой моделью времени, чтобы обеспечить эффективное решение таких задач. ## Метод LAT Logic (Lattice Annotated Temporal Logic) представляет собой расширение Generalized Annotated Logic Programs (GAPs), которое включает в себя логику времени и работу с открытым миром, используя нижнюю латтиссовую структуру. В этой модели используется эффективная процедура вывода в сочетании с логикой программирования. Одним из основных моментов является то, что LAT Logic поддерживает не только Markovovские отношения, но и концепцию "открытого мира", что включает в себя возможность работы с бесконечным или высокообъемным константным пространством. Метод заключается в том, чтобы использовать эту латтиссовую структуру для эффективного описания и вывода во временных задачах, что позволяет обрабатывать открытые задачи с использованием сложных временных зависимостей. ## Результаты В рамках экспериментов, проведенных в рамках разработки LAT Logic, были использованы различные задачи, включающие в себя как логические задачи, так и задачи, основанные на знаниях, которые требуют работы в динамических средах. Для проверки имплементации использовался PyReason, модульный инструмент с машинно-уровневой оптимизацией и интеграцией с окружениями реинфорсментного обучения. Результаты экспериментов показали, что LAT Logic демонстрирует значительные улучшения в скорости работы и эффективности за счет эффективного использования памяти. В задачах, связанных с реинфорсментным обучением, LAT Logic достигла до трех порядков меньшей скорости симуляции, что позволило улучшить производительность агента на 26%. Эти результаты подтверждают мощность новой модели в области логики времени и открытых миров. ## Значимость Помимо теоретического вклада в развитие логики времени и теории открытых миров, LAT Logic имеет практическое применение в различных областях, включая моделирование динамических систем, интеллектуальные технологии, системы решения задач в игровых пространствах. Одной из основных преимуществ этой модели является

Annotation:

We introduce Lattice Annotated Temporal (LAT) Logic, an extension of Generalized Annotated Logic Programs (GAPs) that incorporates temporal reasoning and supports open-world semantics through the use of a lower lattice structure. This logic combines an efficient deduction process with temporal logic programming to support non-Markovian relationships and open-world reasoning capabilities. The open-world aspect, a by-product of the use of the lower-lattice annotation structure, allows for efficien...

ID: 2509.02958v1 cs.LO, cs.AI, cs.LG, cs.PL

arXiv PDF

📄 Efficient Privacy-Preserving Recommendation on Sparse Data using Fully Homomorphic Encryption

2025-09-05

Авторы:

Moontaha Nishat Chowdhury, André Bauer, Minxuan Zhou

## Контекст В современном данно-ориентированном мире рекомендательные системы становятся ключевым инструментом для персонализации пользовательских опытов во многих отраслях. Однако эти системы часто основываются на обработке чувствительных данных, что вызывает серьезные заботы в отношении конфиденциальности. Фулл-хомоморфическая шифрование (FHE) предлагает эффективное решение для шифрования данных во время обработки, но значимой проблемой при его применении к рекомендательным системам является эффективное обращение с информационно-спаршими матрицами рейтингов пользователей и товаров. Операции FHE требуют высокой вычислительной мощности, и простое применение FHE к рекомендательным системам становится невыносимым из-за высоких затрат. Также важной проблемой является высокая накладная стоимость трансляции между сторонами в зашифрованной среде. Наша работа посвящена созданию эффективного решения, которое объединяет Compressed Sparse Row (CSR) представление матриц с методами FHE для матричного факторирования, обеспечивая эффективное обращение с матрицами в зашифрованной среде с минимальными трансляционными затратами. ## Метод Мы предлагаем эффективную методологию, объединяющую Compressed Sparse Row (CSR) представление матриц с FHE-базированным матричным факторированием. CSR представляет матрицу в упрощенном, сжатом виде, что позволяет эффективно обрабатывать спаршие данные. Мы применяем FHE для матричного факторирования, чтобы раскрыть структуру данных без выдачи чувствительной информации. Архитектура нашего подхода включает в себя несколько ключевых этапов: инициализация CSR-представления матрицы, зашифрованное факторирование CSR-матрицы и последующую декомпрессию для получения рекомендаций. Мы используем декомпрессию для минимизации накладных расходов и улучшения точности рекомендаций. Эта методология сочетает высокую эффективность и низкую накладную стоимость, чтобы обеспечить полную конфиденциальность данных и поддерживать высокую точность рекомендаций. ## Результаты Мы провести ряд экспериментов на различных данных, включая реальные рекомендательные матрицы, чтобы оценить эффективность нашего подхода. Наши результаты показывают, что наш подход эффективно обрабатывает информационно-спарши матрицы при небольших затратах на передачу и вычисление. Мы сравнили наш подход с другими технологиями, такими как обычное FHE и сжатые методы без FHE, и получили значительно лучший баланс между точностью рекомендаций и затратами на обработку. Эксперименты показали, что наш подход позволяет получить рекомендации с высокой точностью, почти в нес

Annotation:

In today's data-driven world, recommendation systems personalize user experiences across industries but rely on sensitive data, raising privacy concerns. Fully homomorphic encryption (FHE) can secure these systems, but a significant challenge in applying FHE to recommendation systems is efficiently handling the inherently large and sparse user-item rating matrices. FHE operations are computationally intensive, and naively processing various sparse matrices in recommendation systems would be proh...

ID: 2509.03024v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 S2M2ECG: Spatio-temporal bi-directional State Space Model Enabled Multi-branch Mamba for ECG

2025-09-05

Авторы:

Huaicheng Zhang, Ruoxin Wang, Chenlian Zhou, Jiguang Shi, Yue Ge, Zhoutong Li, Sheng Chang, Hao Wang, Jin He, Qijun Huang

#### Контекст Многосенсорные электрокардиограммы (ECG) широко используются для диагностики сердечно-сосудистых заболеваний (CVD), но обработка этих сигналов представляет сложности из-за их высокой динамичности и нелинейности. Несмотря на развитие глубокого обучения, существуют проблемы с сочетанием высокой точности, высокой скорости и эффективного использования информации из нескольких сенсоров. Это способствует необходимости развития моделей, которые могут эффективно обрабатывать сложные многосенсорные сигналы с минимальным вычислительным временем и максимальной точностью. #### Метод Предлагается S2M2ECG, архитектура на основе state space models (SSMs) с бифуркацией на несколько ветвей. Она включает три уровня синтеза данных: (1) **би-дирекционные би-спациальные SSMs** с разбиением на токены для низкоуровневого сигнала; (2) **би-дирекционное сканирование** для улучшения точности распознавания в прямом и обратном направлениях; (3) **модули специальной спектральной интеракции** для синтеза пространственных данных. Для эффективного использования специфики ECG разработана многогранная многовидовая модель, обеспечивающая индивидуальный анализ каждого сенсора, но при этом простой интеграцию их результатов. #### Результаты S2M2ECG протестирована на нескольких наборах данных, включая ECG5000 и PTB-XL. Модель показала отличную точность в обнаружении ритма и морфологии сигнала, а также в клинических сценариях. Её сравнительный анализ показал, что S2M2ECG имеет наименьшее число параметров среди аналогов, что делает её очень эффективной для работы на устройствах с ограниченными ресурсами. #### Значимость S2M2ECG может применяться в медицинских приложениях, чтобы повысить точность диагноза CVD. Она предлагает баланс между высокой точностью и минимальным вычислительным временем, что значительно упрощает задачу разработки медицинских устройств. В будущем модель может использоваться для разработки новых методов диагностики и мониторинга CVD в реальном времени. #### Выводы S2M2ECG достигает превосходных результатов в обработке ECG сигналов за счёт инновационной многогранной структуры. Её эффективность и легковесная архитектура делают её привлекательной для использования в реальном времени. Будущие исследования будут фокусироваться на расширении модели для работы с более сложными задачами CVD и её интеграции с другими системами диагностики.

Annotation:

As one of the most effective methods for cardiovascular disease (CVD) diagnosis, multi-lead Electrocardiogram (ECG) signals present a characteristic multi-sensor information fusion challenge that has been continuously researched in deep learning domains. Despite the numerous algorithms proposed with different DL architectures, maintaining a balance among performance, computational complexity, and multi-source ECG feature fusion remains challenging. Recently, state space models (SSMs), particular...

ID: 2509.03066v1 eess.SP, cs.AI, cs.LG

arXiv PDF

📄 From Evaluation to Defense: Constructing Persistent Edit-Based Fingerprints for Large Language Models

2025-09-05

Авторы:

Yue Li, Xin Yi, Dongsheng Shi, Yongyi Cui, Gerard de Melo, Xiaoling Wang, Linlin Wang

## Контекст Современные бо LARGE LANGUAGE MODELS (LLMs) являются ценными интеллектуальными свойствами, требующими эффективных методов защиты. Одним из популярных подходов является внедрение специальных отпечатков (fingerprints) в модели с помощью инструкционного тюнинга. Однако этот подход имеет недостатки: он сильно снижает эффективность модели, требует больших вычислительных ресурсов и чувствителен к модификациям модели, что приводит к быстрому удалению отпечатков. Наша мотивация заключается в поиске более эффективного и устойчивого подхода для защиты интеллектуальной собственности LLMs. Мы предлагаем использовать редактирование знаний (knowledge editing) в качестве более гибкого и эффективного способа внедрения отпечатков. ## Метод Мы применяем редактирование знаний для внедрения отпечатков в LLMs впервые. Наш первый вклад — Fingerprint Subspace-aware Fine-Tuning (FSFT), метод, который снижает деградацию отпечатков в ходе тюнинга, ограничивая обновление фингерпринт-субспейса. Мы используем scrambled text (рассортированный текст) в качестве отпечатков для уменьшения риска их перезаписи в процессе тюнинга. Также мы выявляем, что модели с отпечатками сталкиваются с проблемой различения отпечатков от похожих текстов из-за высокой схожести их фич, что делает необходимым развитие более тонких и устойчивых методов внедрения отпечатков. ## Результаты Мы проводим эксперименты для оценки эффективности FSFT по сравнению с традиционным тюнингом. Используемые данные включают различные текстовые коллекции, а результаты показывают, что FSFT обеспечивает до 10% улучшения производительности в сравнении с тюнингом в крайней случае. Мы также проводим анализ того, как отпечатки влияют на модели, и продемонстрировали, что низкая точность различения отпечатков от похожих текстов является основной проблемой. Эти результаты подтверждают необходимость развития мощных, тонких и устойчивых методов внедрения отпечатков. ## Значимость Наш подход имеет широкое применение в области защиты интеллектуальной собственности для LLMs. Он позволяет значительно снизить негативное воздействие на модели, обеспечивая устойчивый отпечаток с меньшим риском перезаписи. Это делает нашу методику более экономичной и эффективной по сравнению с традиционными подходами. Мы также выявляем потенциальные области развития, включая развитие методов, позволяющих более точно различать отпечатки от похожих текстов для увеличения уровня защиты. ## Выводы Мы представили первый подход к внедрению отпечатков в LLMs с помощью редактирования знаний. Наши экспери

Annotation:

The intellectual property (IP) protection of Large Language Models (LLMs) is increasingly critical. Injecting specialized fingerprints into LLMs through instruction tuning is a common IP protection technique. However, this may significantly degrade model performance, requires substantial computational resources, and exhibits poor persistence under model modifications. We argue that knowledge editing offers a lightweight alternative that is more suitable for fingerprint injection. Accordingly, we...

ID: 2509.03122v1 cs.CL, cs.AI, cs.LG

arXiv PDF

1
2
136
137
138
139
140
169
170

Показано 1371 - 1380 из 1693 записей