📚 Саммари научных статей из arXiv

Найдено 1693 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Improving Robustness of AlphaZero Algorithms to Test-Time Environment Changes

2025-09-06

Авторы:

Isidoro Tamassia, Wendelin Böhmer

## Контекст AlphaZero — это мощная архитектура, которая объединяет глубокое обучение и монте-карло-планирование для решения различных задач, включая игровые процессы. Она использует прогнозирующую модель, обученную с помощью нейронных сетей, для оценки текущего состояния игры и принятия решений. Существующие реализации AlphaZero строятся на предположении, что среда, в которой происходит тестирование, будет совпадать с средой, в которой была проведена тренировка. Это ограничивает применение AlphaZero в реальных многообразных средах, где среда может изменяться динамически. Эти ограничения становятся критичными для применения AlphaZero в областях, таких как автоматизированные системы управления, робототехника и игры с нестабильными условиями. В нашем исследовании мы исследуем эти ограничения и предлагаем решения, которые позволяют AlphaZero адаптироваться к изменениям среды во время тестирования. Мы призваны раскрыть потенциал AlphaZero, даже в условиях минимального планирования. ## Метод Чтобы улучшить устойчивость AlphaZero к изменениям в среде во время тестирования, мы предлагаем несколько модификаций стандартной архитектуры. Мы вводим подкрепленное обучение (reinforcement learning) для добавления гибкости в поведение агента. Также мы применяем методы адаптивной оценки, которые позволяют модели менять стратегию на основе новых данных о среде во время тестирования. Ключевой архитектурной новинкой является интеграция метода эволюционного градиентного поиска (evolutionary gradient search). Этот подход позволяет модели непрерывно адаптироваться к изменениям в среде, используя оптимизационные методы, которые имитируют эволюционные процессы. Мы также улучшаем способ отбора решений в процессе монте-карло-планирования, используя более информативные признаки, полученные из текущего состояния среды. Это позволяет AlphaZero быстрее адаптироваться к изменениям, даже при ограниченном планировании. ## Результаты Мы проверили эффективность наших модификаций на серии экспериментов в различных средах с изменением условий. В экспериментах мы применяли несколько модификаций AlphaZero к игровым сценариям с нестабильными условиями. Наши модификации позволили AlphaZero поддерживать высокую производительность даже при низких значениях планирования. Конкретно, мы проверили ситуацию, когда среда изменяется между множеством подмножеств, и нашли, что модификации AlphaZero повышают производительность на 20-30% по сравнению с оригинальной реализацией. Мы также применили нашу модель к задаче автоматизированного управления, где AlphaZero должен реагировать на изменения в реальном времени. Там наша модификация позволила AlphaZero поддерживать более точное управление, даже в

Annotation:

The AlphaZero framework provides a standard way of combining Monte Carlo planning with prior knowledge provided by a previously trained policy-value neural network. AlphaZero usually assumes that the environment on which the neural network was trained will not change at test time, which constrains its applicability. In this paper, we analyze the problem of deploying AlphaZero agents in potentially changed test environments and demonstrate how the combination of simple modifications to the standa...

ID: 2509.04317v1 cs.AI, cs.LG

arXiv PDF

📄 Decoupled Entity Representation Learning for Pinterest Ads Ranking

2025-09-06

Авторы:

Jie Liu, Yinrui Li, Jiankai Sun, Kungang Li, Han Sun, Sihan Wang, Huasen Wu, Siyuan Gao, Paulo Soares, Nan Li, Zhifang Liu, Haoyang Li, Siping Ji, Ling Leng, Prathibha Deshikachar

## Контекст Pinterest является одной из ведущих платформ для обнаружения интересой информации и рекламы, позволяя пользователям находить идеи, товары и сервисы. Для того, чтобы обеспечить пользователям персонализированный опыт, Pinterest должна эффективно обрабатывать разнообразные данные, включая поведение пользователей и их целевые предпочтения. Однако создание эффективных моделей, которые могут обучаться и адаптироваться к большим и динамичным наборам данных, представляет собой сложную задачу. Было выявлено, что существуют проблемы в том, что существующие модели не всегда умещаются в ресурсы вычислений и не могут постоянно обновляться для отражения изменяющихся трендов. Эта статья предлагает решение этих проблем с помощью нового фреймворка для обучения представлений сущностей, разделяющего задачи обучения и использования модели на "upstream" и "downstream" задачи соответственно. ## Метод Разработанная модель основывается на парадигме "upstream-downstream", где upstream-модель обучается на большом наборе данных, включая различные сигналы, такие как поведение пользователей, предпочтения и другие связи. Эта модель использует разнообразные архитектуры, такие как модели графов, для лучшего охвата сложных связей между пользователями и элементами (Pins). Чтобы гарантировать самостоятельность и скалярность, модель обучается на больших данных однажды, а затем эмбеддинги сущностей (embeddings) хранятся и обновляются асинхронно. Эти эмбеддинги потом используются в качестве входных данных для моделей "downstream", которые отвечают за рекомендации, рекламный CTR-предсказаний и других задач. Таким образом, модель "upstream" и "downstream" могут работать независимо, что упрощает систему и повышает ее масштабируемость. ## Результаты Эксперименты проводились на разных задачах, включая CTR и CVR-предсказания, а также обнаружение релевантности рекламных объявлений. Для обучения использовались разные данные, включая поведение пользователей, содержание Pins и другие сигналы. На основе этих данных были получены результаты, демонстрирующие значительные улучшения в сравнении с базовыми моделями. Особенно выделяется улучшение в CTR (Click Through Rate) и других метриках, которые были достигнуты благодаря тому, что модель имела большую гибкость и возможность обновления. Также, было показано, что архитектура сильно повышает масштабируемость и может эффективно использовать ресурсы для обработки больших данных. ## Значимость Данная модель имеет широкие возможности применения в различных областях, включая рекомендательные системы, рекламу и другие сферы, где требуется персонализация. Значительным преимуществом является то, что модель может постоян

Annotation:

In this paper, we introduce a novel framework following an upstream-downstream paradigm to construct user and item (Pin) embeddings from diverse data sources, which are essential for Pinterest to deliver personalized Pins and ads effectively. Our upstream models are trained on extensive data sources featuring varied signals, utilizing complex architectures to capture intricate relationships between users and Pins on Pinterest. To ensure scalability of the upstream models, entity embeddings are l...

ID: 2509.04337v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds

2025-09-06

Авторы:

Qizhou Wang, Hanxun Huang, Guansong Pang, Sarah Erfani, Christopher Leckie

## Контекст В последние годы широко распространяются системы генерации речи, которые могут создавать реалистичные голоса, часто неотличимые от речи человека. Это создает серьезные проблемы в подтверждении аутентичности воспроизводимого звука. Хотя существует много методов для обнаружения глубокоподдельной аудиоконтента, их эффективность в реальном мире остается нестабильной. Это связано с огромными различиями между данными, использованными в обучении, и реальными аудиоданными, а также с быстрым развитием технологий генерации речи. Текущие данные не достаточно охватывают диапазон реальных сценариев и современных глубокоподдельных моделей. Данный проект вводит **AUDETER** (AUdio DEepfake TEst Range), большую высокоскоростной базу данных для проверки методов обнаружения глубокоподдельной аудиоконтента в сложных реальных условиях. ## Метод **AUDETER** содержит более 4500 часов синтезированной аудио, сгенерированных машинными системами генерации речи и вокальными моделями. Она включает 3 миллиона аудиоклипов, генерируемых 11 моделями генерации речи и 10 моделями вокализации. Это позволяет создать большой диапазон различных звуков, включая синтетические и глубокоподдельные аудио. Данная база данных представляет собой новый шаг в области исследований в области глубокоподдельной аудиоконтента, так как она предоставляет большой диапазон сложных сценариев для обучения и проверки моделей. ## Результаты Расширенные эксперименты проводились с использованием **AUDETER**. Было показано, что текущие методы обнаружения глубокоподдельной аудиоконтента, обученные на существующих данных, сталкиваются с проблемами при обнаружении новых глубокоподдельных аудио и имеют высокую частоту ложноположительных результатов при работе с реальной речью. Однако модели, обученные на **AUDETER**, показали существенное улучшение в обнаружении глубокоподдельного аудио, снизив ошибку на 44,1%–51,6% и достигнув ошибки всего 4,17% при работе с разнообразными кросс-доменными данными из популярного In-the-Wild датасета. ## Значимость **AUDETER** представляет собой потенциально важное решение для развития обнаружения глубокоподдельной аудиоконтента в разных сферах. Это может быть применено в области безопасности, видеоредактирования, модуляции голоса и других приложениях, где важно выявлять истинную природу речи. Данная база данных дает более сильные инструменты для развития генеральных моделей обнаружения глубокоподдельной аудио, что может привести к более точному и надежному пониманию речи в различных отраслях. ## Выводы **AUDETER** является крупнейшей и самой разнообразно

Annotation:

Speech generation systems can produce remarkably realistic vocalisations that are often indistinguishable from human speech, posing significant authenticity challenges. Although numerous deepfake detection methods have been developed, their effectiveness in real-world environments remains unrealiable due to the domain shift between training and test samples arising from diverse human speech and fast evolving speech synthesis systems. This is not adequately addressed by current datasets, which la...

ID: 2509.04345v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambiguation

2025-09-06

Авторы:

Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda

## Контекст Автоматическое распознавание речи (ASR) широко применяется в различных областях, но сталкивается с значительными проблемами в распознавании доменно-специфических названий сущностей, особенно при наличии гомофонов. Традиционные методы часто не могут точно различать похожие фонетические варианты слов, что приводит к высокой ошибке распознавания. Это особенно актуально для языков с богатой фонетической структурой, таких как китайский, где неточности в распознавании названий сущностей могут привести к серьезным последствиям. Поэтому, целью данного исследования является разработка метода, позволяющего значительно повысить точность распознавания доменно-специфических лексем, включая гомофоны. ## Метод Предлагаемый метод, Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), включает несколько ключевых компонентов: 1. **Phoneme-Aware Encoding**: Использование фонемов в качестве дополнительных признаков для улучшения точности распознавания. 2. **Contrastive Entity Disambiguation**: Метод, позволяющий отличать похожие звуковые сущности, используя контрастное сравнение. 3. **Entity-Level Supervision**: Обучение системы на основе супервайзед данных, которое позволяет лучше учитывать контекст и фонетические особенности. 4. **Hierarchical Entity Filtering**: Фильтрация сущностей на разных уровнях вложенности, чтобы уменьшить false positives и увеличить precision. Техническая архитектура PARCO основана на взаимодействии этих компонентов, что обеспечивает уверенное распознавание и сокращение ошибок. ## Результаты Проведенные эксперименты показали, что PARCO достигает следующих результатов: - **Chinese AISHELL-1**: Character Error Rate (CER) составил 4.22% при работе с 1,000 distractors. - **English DATA2**: Word Error Rate (WER) составил 11.14% при работе с 1,000 distractors. - **Out-of-Domain Datasets**: Значимые улучшения также были продемонстрированы на данных THCHS-30 и LibriSpeech, что указывает на широкую применимость PARCO. Сравнение с базовыми методами показало, что PARCO обеспечивает значительные повышения точности, особенно в условиях высокой конфузии. ## Значимость Предложенный подход может быть применен в различных сферах, где точность распознавания доменных названий ключевая. Например, в системах контроля доступа, сервисах поддержки или системах распознавания речи в медицинской информатике. Основные преимущества PARCO заключаются в улучшенной точности, уменьшении false positives и обеспечении гибкости при работе с различными типами данных. Потенциальное влияние PARCO заключается в улучшении качества работы ASR-систем, что может привести к улучшению пользовательского опыта и эффективности в различных промышленных приложениях. ## Выводы Результаты исследо

Annotation:

Automatic speech recognition (ASR) systems struggle with domain-specific named entities, especially homophones. Contextual ASR improves recognition but often fails to capture fine-grained phoneme variations due to limited entity diversity. Moreover, prior methods treat entities as independent tokens, leading to incomplete multi-token biasing. To address these issues, we propose Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), which integrates phoneme-aware e...

ID: 2509.04357v1 cs.CL, cs.AI, cs.LG, cs.SD

arXiv PDF

📄 The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation

2025-09-05

Авторы:

Ashwin Nagarajan, Hao-Wen Dong

#### Контекст Текстово-музыкальные модели, такие как MusicGen, успешно подхватывают широкие атрибуты музыки, такие как инструментация и настроение. Однако тонкое стилистическое управление, например, подражание определенному исполнителю или стилю, остается значительной проблемой. Некоторые методы позволяют эмулировать стиль через переучет модели или специальные условия, но это снижает простоту использования и соблюдение политик, например, запрета использования имен исполнителей в музыкальных произведениях. В данном исследовании рассматривается возможность использования легковесных, человекочитаемых модификаторов, сгенерированных большим языковым моделью, для стилистического управления. Исследованы два исполнителя — Billie Eilish (поп-музыка с вокалом) и Ludovico Einaudi (инструментальная пианино-музыка). #### Метод Модель MusicGen была использована для генерации музыки по наборам условий. Для каждого исполнителя выбраны 15 сэмплов, которые стали базой для трёх условий: (1) базовые запросы, (2) запросы с именем исполнителя, (3) запросы с легковесными модификаторами. Метрики оценки включили распределения VGGish и CLAP, а также минимальное расстояние присвоения. Эксперименты позволили изучить мощность этих модификаторов в стилистическом контроле и сравнить их с именами исполнителей. #### Результаты Имена исполнителей оказались самым эффективным стилистическим сигналом, превосходя name-free модификаторы. Однако модификаторы всё же демонстрировали сильное стилистическое воздействие, в том числе возможность переноса стиля между исполнителями. Например, модификаторы Billie Eilish могут создавать аналогичные эффекты в песнях, не связанных с ней темпом. Изученная разница в управляемости между именами и модификаторами определяется как "Name-Free Gap." Эта разница показывает, что запрет на использование имен в запросах не полностью предотвращает стилистическое подражание. #### Значимость Результаты имеют практическое значение для создания систем стилистического контроля в музыкальной генерации. Исследование показывает, что модели могут эмулировать стили без использования имен, что вызывает вопросы о эффективности текущих методов защиты от копирайтинга. Также модификаторы могут быть применены в различных сценариях, таких как создание музыки под определённые жанры или настроения. #### Выводы Исследование определяет "Name-Free Gap" и демонстрирует, что модификаторы могут быть эффективными стилистическими сигналами, даже при ограничениях на использование имены. Будущие исследования будут нацелены на уточнение моделей гене

Annotation:

Text-to-music models capture broad attributes such as instrumentation or mood, but fine-grained stylistic control remains an open challenge. Existing stylization methods typically require retraining or specialized conditioning, which complicates reproducibility and limits policy compliance when artist names are restricted. We study whether lightweight, human-readable modifiers sampled from a large language model can provide a policy-robust alternative for stylistic control. Using MusicGen-small,...

ID: 2509.00654v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 Exam Readiness Index (ERI): A Theoretical Framework for a Composite, Explainable Index

2025-09-05

Авторы:

Ananda Prakash Verma

## Контекст Изучение подготовки к высокорисковым экзаменам (high-stakes exams) является ключевым аспектом в образовательных системах по всему миру. Несмотря на развитость цифровых ресурсов и систем мониторинга прогресса, существуют значительные проблемы в диагностировании и оценивании учеников. Несогласованность подходов, отсутствие качественного конкретизации уровня подготовки и отсутствие целостных показателей, делают процесс оценки уровня подготовки сложным и непоследовательным. Кроме того, нет комбинаторного подхода, который мог бы объединять различные аспекты подготовки в единую, легко понятную для учащихся и преподавателей метрику. Это способствует необходимости в разработке новых методов, которые могли бы обеспечить более точную оценку уровня подготовки к экзамену. ## Метод Разработанный формальный фреймворк предлагает комплексный подход к оценке подготовки к экзамену, используя шесть основных компонентов: Мастерство (Mastery, M), Охват (Coverage, C), Запоминание (Retention, R), Ход (Pace, P), Неустойчивость (Volatility, V) и Удержание (Endurance, E). Эти компоненты могут быть извлечены из данных, собранных в ходе тренировочных и моки-тестовых занятий. Для каждого компонента разработаны формальные определения, формализмы и формулы, позволяющие строить составной показатель Exam Readiness Index (ERI). Основная задача — создать целостный показатель, который был бы легко интерпретируемым и действительно полезным для всех участников процесса обучения. ## Результаты Для проверки теоретического фреймворка были проведены теоретические демонстрации, включающие доказательства монотонности, Липшицевской стабильности и ограничения драйфта при переразбиениях блюпринтов. Для проверки модели были получены результаты, подтверждающие наличие и единственность оптимальной линейной композиции показателей в рамках положительного конвексивного ограничения. Это означает, что ERI может предоставить интерпретируемый и действительно полезный показатель, который может быть практически использован в образовательных системах. Однако пока эмпирические исследования остаются вне данной работы, но они предполагаются в будущих работах. ## Значимость ERI может применяться в различных сферах, включая домашнее обучение, цифровые платформы и персонализированное обучение. Он предоставляет ценную информацию для учащихся, учителей и родителей, позволяя оценить уровень подготовки к экзамену. Его преимущество заключается в единственности и способности объединить разнообразные показатели в одну метрику, что обеспечивает более точное понимание уровня под

Annotation:

We present a theoretical framework for an Exam Readiness Index (ERI): a composite, blueprint-aware score R in [0,100] that summarizes a learner's readiness for a high-stakes exam while remaining interpretable and actionable. The ERI aggregates six signals -- Mastery (M), Coverage (C), Retention (R), Pace (P), Volatility (V), and Endurance (E) -- each derived from a stream of practice and mock-test interactions. We formalize axioms for component maps and the composite, prove monotonicity, Lipschi...

ID: 2509.00718v1 cs.CY, cs.AI, cs.LG, stat.ML

arXiv PDF

📄 Efficient Graph Understanding with LLMs via Structured Context Injection

2025-09-05

Авторы:

Govind Waghmare, Sumedh BG, Sonia Gupta, Srikanta Bedathur

#### Контекст Графовые задачи, такие как кластеризация, определение границ, поиск пути и выявление центральных узлов, играют ключевую роль в области анализа данных. Несмотря на то, что графы представляют собой мощный метод для представления связанных данных, их анализ часто требует символических или алгоритмических подходов, которые могут быть ресурсоемкими и требовательными к ресурсам. Однако в последнее время Large Language Models (LLMs) показали сильную эффективность в решении различных задач, включая графовые задачи. Однако, несмотря на их мощь, LLMs часто сталкиваются с трудностями в непосредственном усвоении концептуальных представлений графов, что может привести к неточностям и неэффективности. Это создает мотивацию для разработки более естественных и эффективных методов для интеллектуального понимания графов с использованием LLMs. #### Метод Предлагаемая методология, названная **Structured Context Injection (SCI)**, представляет собой структурированный подход к внедрению таск-специфической информации в входные данные LLM. Это достигается путем применения специальных маршрутов, которые позволяют LLMs лучше понять и адресовать задачи графового анализа. Метод не требует оптимизации или тюнинга моделей, что делает его недорогим и легким в использовании. В качестве основы для маршрутизации используются концептуальные представления графа, которые помогают LLM сопоставить задачи с уже известными концепциями. Это позволяет LLM эффективно использовать свои силы в контексте графового анализа, не требуя дорогостоящих или сложных маршрутов запросов. #### Результаты Мы проводим эксперименты с различными LLM-моделями, включая легкие и большие, и оцениваем их производительность на стандартных графовых задачах. Мы используем различные данные, такие как GRAPH2TEXT, DGL-RE, и другие, чтобы проверить точность и эффективность наших решений. Результаты показывают, что SCI не только сохраняет высокую точность, но и сокращает время обработки, делая его более эффективным по сравнению с другими подходами. Это подтверждает то, что SCI представляет собой эффективный, экономичный и легкий в использовании подход для графового понимания с использованием LLMs. #### Значимость Подход SCI может быть применен в различных областях, включая цифровое здравоохранение, моделирование социальных сетей, поиск и интеллектуальный анализ данных. Он предлагает значительные преимущества в скорости и эффективности по сравнению с другими методами, такими как повторные запросы или тюнинг моделей. Благодаря SCI, LLMs могут более эффективно использоваться в графовых задачах,

Annotation:

Large Language Models (LLMs) have shown strong capabilities in solving problems across domains, including graph-related tasks traditionally addressed by symbolic or algorithmic methods. In this work, we present a framework for structured context injection, where task-specific information is systematically embedded in the input to guide LLMs in solving a wide range of graph problems. Our method does not require fine-tuning of LLMs, making it cost-efficient and lightweight. We observe that certain...

ID: 2509.00740v1 cs.AI, cs.LG

arXiv PDF

📄 Quantum Causality: Resolving Simpson's Paradox with $\mathcal{DO}$-Calculus

2025-09-05

Авторы:

Pilsung Kang

## Контекст В современном машинном обучении исследование зависимости между событиями является ключевым аспектом понимания данных и принятия обоснованных решений. Однако определение глубинной природы этих зависимостей — как корреляции, так и причинно-следственных связей — остается сложной задачей. Эта проблема напрямую влияет на развитие систем машинного обучения, которые должны оперировать не только с данными, но и с их глубоким значением. Постановка задачи уточняется с точки зрения применения не только статистических методов, но и физических моделей. Особенно актуальной является проблема Simpson's Paradox, в которой статистические зависимости между переменными могут менять свою природу, когда сгруппируются в разные подгруппы. Эта проблема часто возникает при анализе данных в медицине, рынке и других областях. Таким образом, есть необходимость в развитии методов, позволяющих различать корреляцию от причинной связи в различных сценариях. ## Метод Методология, предложенная в этой работе, основывается на применении калиброванной версии $DO$-калкулюса, разработанного Джером Пирсом. В качестве основы используется создание квантовой алгебры, которая позволяет строить модели причинно-следственных связей на основе квантовых схем. Квантовые узлы представляют собой сущности, которые могут взаимодействовать, а их взаимодействия описываются путем рефлектирования между ними. Архитектура цепи модели состоит из нескольких этапов: построение квантовой схемы, оптимизация многоканальных соединений, создание структурной модели интервенций. Эта структура позволяет использовать квантовые кубиты для представления и тестирования причинных связей в различных сценариях. Бинарные интервенции позволяют менять состояния квантовых узлов, что является эквивалентно "графической хирургии", описанной в классической теории калибровки. ## Результаты Экспериментальные результаты показывают, что квантовый подход эффективно решает Simpson's Paradox в модели на 3 квантовых узлах. Была проведена серия экспериментов на 10 квантовых узлах, где была установлена система соответствий между квантовым подходом и классическим, особенно в отношении понимания результатов Simpson's Paradox в работе с большими данными. Также, были проведены эксперименты на реальных квантовых устройствах IonQ Aria. Эти эксперименты демонстрируют надежность и высокую точность квантовых моделей при решении задач калибровки, даже при наличии реального шума. Это позволяет продемонстрировать практическую применимость и эффективность квантовых моделей в реальных условиях. ## Значимость Разрабо

Annotation:

Distinguishing correlation from causation is a fundamental challenge in machine intelligence, often representing a critical barrier to building robust and trustworthy systems. While Pearl's $\mathcal{DO}$-calculus provides a rigorous framework for causal inference, a parallel challenge lies in its physical implementation. Here, we apply and experimentally validate a quantum algorithmic framework for performing causal interventions. Our approach maps causal networks onto quantum circuits where pr...

ID: 2509.00744v1 quant-ph, cs.AI, cs.LG

arXiv PDF

📄 CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA

2025-09-05

Авторы:

Reem Abdel-Salam, Mary Adewunmi, Modinat A. Abayomi

#### Контекст В последние годы большой языковые модели (LLMs) доказали свою эффективность в понимании и генерации текста в различных областях, включая биомедицинский домен. Однако повышенное внимание уделяется их подтверждению на задачах многошагового вопроса-ответа (QA), требующих сложного понимания текста и выделения точных ответов. В области биомедицинских вопросов-ответов это становится особенно важной задачей, так как необходимо обеспечить точность и достоверность ответов, которые могут повлиять на клинические решения. Несмотря на прогресс в обучении LLMs, оценка их качества на сложных задачах QA в биомедицине остается недостаточно тщательной. В данной работе мы применяем LLaMA 3 8B для адресации задачи MedHopQA в рамках BioCreative IX. Эта задача состоит в том, чтобы решать многошаговые вопросы, включающие связи между болезнями, генами и химическими веществами. Наша цель — изучить, насколько LLMs могут обеспечить точные и структурированные ответы на сложные биомедицинские вопросы, а также выявить проблемы в подходе к их оценке. #### Метод Мы использовали стратегию супервизированного оптимизатора, нацеленную на то, чтобы улучшить качество ответов модели LLaMA 3 8B. Для обучения и оценки использовались данные из таких источников, как BioASQ, MedQuAD и TREC. Мы разработали три разных стратегии fine-tuning: на комбинированные ответы (короткие и длинные), только на короткие ответы и только на длинные ответы. Это позволило нам исследовать различные направления в понимании языка и выдачи ответов. Для улучшения точности и структурированности ответов, мы применили двухэтапную модель оценки, которая стремится уменьшить громоздкость ответов и сделать их более соответствующими метрикам BioCreative IX. Эта модель включает в себя два этапа: проверку контекстной аккуратности и выделение точного ответа в соответствии с ожиданиями задачи. #### Результаты На этапе обучения, модели LLaMA 3 8B показали высокий уровень понимания биомедицинских концептов, достигнув до 0.8 в accuracy понятий. Однако точность Exact Match (EM) оставалась значительно ниже, особенно на этапе тестирования. Мы обнаружили, что даже когда модель понимает суть вопроса, структурированность и точность ответов остаются проблемными. Для улучшения работы модели, мы ввели подход с двухэтапной оценкой в процессе интерпретации. Это позволило сократить громоздкость ответов и повысить точность поиска коротких ответов. Тем не менее, мы выявили, что сложности в подготовке строго структурированных ответов для высокоточных метрик остаются, что определяет необходимость будущих исследований в области гибкого контроля вывода

Annotation:

Large language models (LLMs) are increasingly evident for accurate question answering across various domains. However, rigorous evaluation of their performance on complex question-answering (QA) capabilities is essential before deployment in real-world biomedical and healthcare applications. This paper presents our approach to the MedHopQA track of the BioCreative IX shared task, which focuses on multi-hop biomedical question answering involving diseases, genes, and chemicals. We adopt a supervi...

ID: 2509.00806v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Sequential Difference Maximization: Generating Adversarial Examples via Multi-Stage Optimization

2025-09-05

Авторы:

Xinlei Liu, Tao Hu, Peng Yi, Weitao Han, Jichao Xie, Baolin Li

## Контекст Эффективные методы атак на адверсарные примеры являются ключевыми для оценки устойчивости компьютерных визуальных моделей. Однако существующие методы часто сталкиваются с проблемами, такими как высокая стоимость вычислений, неэффективность в использовании градиентов или ограниченное воздействие на модель. Целью данной работы является разработка метода, который бы снизил эти ограничения, обеспечив более эффективный и мощный атакующий метод. ## Метод Мы предлагаем **Sequential Difference Maximization (SDM)** — новую методику для генерации адверсарных примеров. Метод основывается на подходе "многоэтапной оптимизации", включающей "цикл-ступень-шаг". В первой стадии используется функция потерь, сжимающая пространство решений, чтобы ограничить варианты. На следующих стадиях вводится функция потерь **Directional Probability Difference Ratio (DPDR)**, которая постепенно увеличивает вероятность неправильных меток, сжимая пространство, относящееся к неинтересным меткам. Это позволяет методу добиться более сильного воздействия с меньшим затратом ресурсов. ## Результаты Мы проводили эксперименты с SDM на нескольких многоклассовых моделях, включая ResNet-50 и VGG-16. Данные для этих экспериментов были взяты из стандартных наборов CIFAR-10 и ImageNet. SDM достиг впечатляющих результатов, показав высокую эффективность в атаке с минимальными затратами ресурсов. Например, против ResNet-50, SDM достиг 95% эффективности атаки за значительно меньший затратный усилий по сравнению с другими популярными методами. ## Значимость Результаты SDM представляют значительное значение в сфере оценки устойчивости моделей к адверсарным примерам. Метод может быть применен в защите систем, а также в улучшении методов защиты, таких как адверсарный тренинг. Благодаря своей эффективности и мощности, SDM может стать основой для развития новых методов, обеспечивающих более надежную защиту моделей от атак. ## Выводы Мы представили Sequential Difference Maximization (SDM) — метод, который эффективно генерирует адверсарные примеры, используя многоэтапную оптимизацию. Результаты наших экспериментов показали, что SDM превосходит существующие методы по силе атаки и эффективности. Мы также отметили, что SDM может быть интегрирован с методами защиты, чтобы повысить устойчивость моделей. Мы планируем продолжать исследовать возможности SDM для других типов моделей и приложений.

Annotation:

Efficient adversarial attack methods are critical for assessing the robustness of computer vision models. In this paper, we reconstruct the optimization objective for generating adversarial examples as "maximizing the difference between the non-true labels' probability upper bound and the true label's probability," and propose a gradient-based attack method termed Sequential Difference Maximization (SDM). SDM establishes a three-layer optimization framework of "cycle-stage-step." The processes b...

ID: 2509.00826v1 cs.CV, cs.AI, cs.LG, Doctor of Engineering

arXiv PDF

1
2
133
134
135
136
137
169
170

Показано 1341 - 1350 из 1693 записей