📚 Саммари научных статей из arXiv

Найдено 1292 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs

2025-08-15

Авторы:

Aayush Gupta

## Контекст Large language models (LLMs) являются мощными инструментами для обработки естественного языка, но остаются чрезвычайно уязвимыми для атак, таких как проникновение с помощью принудительной инъекции промптов (prompt injection). Такие атаки позволяют злоумышленникам обходить безопасность моделей, используя контрольные простыни, вирусы текста и другие хитрости. Несмотря на развитие графических пользовательских интерфейсов и настройки гибридных моделей, эти угрозы не устранены. Одной из главных проблем является недостаток верификации контекста, что приводит к нежелательным побочным эффектам. Мотивирует это значительное злоупотребление подобными уязвимостями в различных сферах, от кибербезопасности до безопасности частных данных. Целью данного исследования является разработка проблемно-ориентированной безопасной архитектуры, которая может защищаться от таких атак, обеспечивая высокую прозрачность и неинтерферентность. ## Метод Методология применяемой в работе основывается на применении архитектуры **Contextual Integrity Verification (CIV)**, которая внедряет криптографически подписанные метки происхождения в каждый токен предоставляемых данных. В качестве дополнительного уровня защиты вводится **source-trust lattice** — механизм, который применяет источниковую трассировку токенов, используя твердые градиенты в маске пропускания токена (включая возможность включения FFN/residual gating). Это позволяет определять и отсекать токены, которые могут быть использованы для нежелательных атак. Архитектура CIV работает в режиме **inference-time**, чтобы не требовать переобучения моделей. Она является дополнительным модулем, который может быть применен к уже примененным моделям без необходимости тщательного тюнинга. ## Результаты Для оценки эффективности CIV были проведены эксперименты с использованием данных, основанных на текущих тезаурусах проникающих атак (Elite-Attack и SoK-246). Исследования показали, что CIV достигает 0% успеха атак в указанном технологическом моделе, сохраняя 93,1% токенного размера. Это означает, что модель может защищаться от хитрых принудительных атак, не теряя качества соответствия благонадёжному тексту. Кроме того, CIV не вызывает существенного замедления выполнения модели, за счет легковесного характера технологии. Мы также продемонстрировали примеры защиты с помощью LLama-3-8B и Mistral-7B, которые были защищены без нужды в тюнинге или переобучении. ## Значимость Разработанная архитектура CIV может быть применена в различных сферах, где необходима защита от нежелательных атак на модели ИИ. Области, в которых CIV может иметь преимущества, включают бе

Annotation:

Large language models (LLMs) remain acutely vulnerable to prompt injection and related jailbreak attacks; heuristic guardrails (rules, filters, LLM judges) are routinely bypassed. We present Contextual Integrity Verification (CIV), an inference-time security architecture that attaches cryptographically signed provenance labels to every token and enforces a source-trust lattice inside the transformer via a pre-softmax hard attention mask (with optional FFN/residual gating). CIV provides determini...

ID: 2508.09288v1 cs.CR, cs.AI, cs.CL, 68T07, 94A60, D.4.6; K.6.5; E.3; I.2.6; I.2.7

arXiv PDF

📄 Fake-Mamba: Real-Time Speech Deepfake Detection Using Bidirectional Mamba as Self-Attention's Alternative

2025-08-15

Авторы:

Xi Xuan, Zimo Zhu, Wenxin Zhang, Yi-Cheng Lin, Tomi Kinnunen

## Контекст Синтез речи продолжает развиваться, однако это приносит новые секретностных угрозы, особенно в области глубокого подделывания речи (deepfake). Определение и анализ таких поддельных речевых фрагментов становится ключевым для защиты от мошенничества и фальсификации. Несмотря на то, что существуют современные способы обнаружения deepfake, они часто сталкиваются с проблемами, такими как высокая задержка и ограниченная обнаружительная эффективность. Fake-Mamba предлагает альтернативный подход к обнаружению deepfake, используя bidirectional Mamba в качестве альтернативы Self-Attention. Этот подход может обнаруживать не только локальные, но и глобальные особенности синтетической речи. Он имеет реальное время обработки, что делает его пригодным для практического применения в реальных условиях. Этот подход может быть применен для борьбы с мошенничеством, защиты личных данных и обеспечения безопасности в системах управления доступом. ## Метод Fake-Mamba основывается на XLSR-архитектуре, которая хранит богатые звуковые представления. Библиотека Mamba, в качестве альтернативы Self-Attention, используется для получения глобальных и локальных контекстов речи. Разработаны три различных модели: TransBiMamba, ConBiMamba и PN-BiMamba. Эти модели сочетают в себе локальные и глобальные характеристики, чтобы обнаруживать не только синтетические элементы речи, но и различия в вариациях интонации. Fake-Mamba была тщательно тренирована на широком диапазоне данных, включая ASVspoof 21 LA, 21 DF и In-The-Wild, чтобы обеспечить высокую точность и обнаружение поддельных речи в разных условиях. Инновационными являются специальные эффективные модули, созданные для того, чтобы повысить производительность и точность модели. ## Результаты Fake-Mamba была протестирована на трех различных наборах данных. На ASVspoof 21 LA, 21 DF и In-The-Wild она показала значения Equal Error Rate (EER) 0.97%, 1.74% и 5.85%, соответственно. Это превышает результаты для других новых моделей, таких как XLSR-Conformer и XLSR-Mamba. Результаты показывают, что Fake-Mamba обеспечивает высокую точность в реальном времени, даже при обработке длинных фрагментов речи. Она также демонстрирует высокую обнаружительную эффективность на различных наборах данных, что делает ее широко применимой в различных сценариях. ## Значимость Fake-Mamba может использоваться в различных областях, включая безопасность цифровых систем, защиту от фишинга, идентификацию злоумышленников и защиту личных данных. Она предлагает несколько преимуществ, таких как более высокая точность, меньшая задержка и широкая генерализуемость. Этот подход может привести к значительным улучшениям в защите от мошеннич

Annotation:

Advances in speech synthesis intensify security threats, motivating real-time deepfake detection research. We investigate whether bidirectional Mamba can serve as a competitive alternative to Self-Attention in detecting synthetic speech. Our solution, Fake-Mamba, integrates an XLSR front-end with bidirectional Mamba to capture both local and global artifacts. Our core innovation introduces three efficient encoders: TransBiMamba, ConBiMamba, and PN-BiMamba. Leveraging XLSR's rich linguistic repre...

ID: 2508.09294v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

2025-08-15

Авторы:

Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin

## Контекст Large Language Models (LLMs) стали ключевыми инструментами для решения различных задач, включая генерацию текста, синтез кода и анализ данных. Одной из основных оптимизаций, позволяющих увеличить эффективность их интерпретации, является использование Key-Value (KV) cache. Этот механизм хранит intermediate attention computations, что позволяет избежать повторных вычислений и ускорить процесс. Однако, несмотря на свою полезность, KV-cache создает недооцененные вопросы безопасности и конфиденциальности. Например, он может хранить конфиденциальные данные пользователя, которые впоследствии могут быть использованы в незаконных целях. В настоящее время существуют недостатки в анализе и стратегиях защиты этого критического компонента. Этот новый исследование направлено на изучение существующих проблем и разработку эффективных методов защиты. ## Метод Методология исследования состоит из нескольких этапов. В первую очередь, авторы проанализировали архитектуру KV-cache и установили, что она может содержать конфиденциальные данные, которые могут быть подвержены атакам. Затем они разработали три уникальных вектора атаки: **Direct Inversion Attack**, **Collision Attack** и **Injection Attack**. Эти атаки используют разные подходы для извлечения информации из KV-cache. Для защиты, авторы предложили KV-Cloak — новую защитную схему, которая основывается на reversible matrix-based obfuscation и operator fusion. Они также описали алгоритмы реализации и меры, использованные для оценки эффективности защиты. ## Результаты На экспериментальных данных показано, что атаки способны восстановить сентиментные данные из KV-cache с высокой точностью. Например, в Direct Inversion Attack, атакующий может восстановить конкретные фрагменты текста, использованные в интерпретации. Collision Attack позволяет атакующему угадывать взаимосвязи между разными данными. Injection Attack добавляет злонамеренные данные в KV-cache, что повлияет на последующие вычисления. Однако при использовании KV-Cloak эти атаки оказались ненадежными: восстановленная информация становится непонятной и бессмысленной, а результаты модели остаются почти неизменными. Эти результаты подтверждают эффективность KV-Cloak в сочетании с минимальным ущербным эффектом на производительность и модельный accuracy. ## Значимость Результаты имеют большое значение в сферах, где защита конфиденциальных данных является критически важной. KV-Cloak может быть применен в области конфиденциальных текстовых моделей, медицинского анализа и других приложениях, где конфиденциальность является первостепенной задачей. Ключевым преимуществом является то, что он обеспечивает высокую защиту без существенного снижения производительности и точности. Это

Annotation:

The Key-Value (KV) cache, which stores intermediate attention computations (Key and Value pairs) to avoid redundant calculations, is a fundamental mechanism for accelerating Large Language Model (LLM) inference. However, this efficiency optimization introduces significant yet underexplored privacy risks. This paper provides the first comprehensive analysis of these vulnerabilities, demonstrating that an attacker can reconstruct sensitive user inputs directly from the KV-cache. We design and impl...

ID: 2508.09442v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 NeuronTune: Fine-Grained Neuron Modulation for Balanced Safety-Utility Alignment in LLMs

2025-08-15

Авторы:

Birong Pan, Mayi Xu, Qiankun Pi, Jianhao Chen, Yuanyuan Zhu, Ming Zhong, Tieyun Qian

#### Контекст Современные Large Language Models (LLMs) обладают высоким потенциалом в различных областях, но сталкиваются с систематическими проблемами, связанными с безопасностью и качеством. Одной из ключевых проблем является нехватка баланса между безопасностью и полезностью. На данный момент используются методы, ориентированные на грубые вмешательства в слои моделей. Они не могут гарантировать точную корректировку действий модели в ответ на безопасность и качество. Данная проблема требует развития более тонких методов корректировки модели, которые бы позволили достичь сбалансированного взаимодействия между безопасностью и полезностью. #### Метод Предлагаемый метод NeuronTune основывается на тонкой модификации сигналов специфичных нейронов для достижения баланса между безопасностью и полезностью. Метод начинает с атрибуции, чтобы определить безопасность-критичные и полезность-критичные нейроны во всех слоях. Затем, NeuronTune применяет методы мета-обучения для адаптивного усиления сигналов безопасности и торможения сигналов полезности. Одним из ключевых преимуществ является то, что NeuronTune позволяет гибко контролировать степень вмешательства в функционировании модели, корректируя количество модифицируемых нейронов. Это делает NeuronTune универсальным инструментом для применения в различных сценариях, где требуется высокая безопасность или высокая полезность. #### Результаты На широком наборе экспериментов, включающих задачи с текстом и задачи безопасности, NeuronTune показал существенный выигрыш по сравнению с текущими технологиями. Он улучшил безопасность модели, сократив частоту провалов в тестах на вредоносные запросы, при этом сохранив высокую качественную генерацию текста и задачу, которые традиционно негативно отражаются после других методов корректировки. Эти результаты подтверждают, что NeuronTune является эффективным методом для достижения баланса между безопасностью и полезностью в LLMs. #### Значимость NeuronTune может быть применен в различных областях, где необходима высокая безопасность и качество текста. Например, в области медицины, юриспруденции, финансов, где любая деформация текста может привести к серьезным последствиям. Также NeuronTune позволяет решать проблемы, связанные с нежелательной генерацией ненормативной лексики или вранья, что является важной задачей для многих систем текстового понимания. Использование NeuronTune помогает сделать LLMs более надежными и стабильными в различных областях их применения. #### Выводы Результаты экспериментов подтверждают, что NeuronTune является эффектив

Annotation:

Ensuring robust safety alignment while preserving utility is critical for the reliable deployment of Large Language Models (LLMs). However, current techniques fundamentally suffer from intertwined deficiencies: insufficient robustness against malicious attacks, frequent refusal of benign queries, degradation in generated text quality and general task performance--the former two reflecting deficits in robust safety and the latter constituting utility impairment. We trace these limitations to the ...

ID: 2508.09473v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 AI Blob! LLM-Driven Recontextualization of Italian Television Archives

2025-08-15

Авторы:

Roberto Balestri

## Контекст Область исследования связана с использованием ИИ для улучшения доступа к историческим телевизионным архивам. Исторические телевизионные архивы часто остаются недоступными или неэффективно используются из-за сложности в их поиске и реконтекстуализации. Традиционные методы, основанные на статических метаданных, не могут удовлетворительно разрешать эти задачи. AI Blob! предлагает использовать семантические технологии и Large Language Models (LLMs) для более эффективного поиска, реконтекстуализации и создания новых номинативных позиций в архивах. Основная мотивация заключается в развитии инструментов, которые могут автоматизировать и улучшить процесс доступа к телевизионным архивам, позволяя новым видам художественного и исторического восприятия. ## Метод Система AI Blob! использует методы автоматического распознавания речи (ASR), семантических векторов и retrieval-augmented generation (RAG). Архивная видео footage, содержащаяся в 1,547 видеозаписях, проходит ASR для генерации текстовых транскриптов. Затем эти транскрипты разбиваются на уровень предложений, и каждое предложение становится объектом semantic embedding, которые вставляются в векторную базу данных. Пользователь может вводить тематические запросы, например "politics" или "culture". LLM, используя эти запросы, выдает ряд семантически похожих запросов, которые расширяют поиск. На основе этих входных данных, система выбирает аудио-визуальные фрагменты, которые организуются в новую логическую последовательность, представляющую собой новую хронологию и контекст. Это позволяет создавать новые тематические монтажи, подобные редакторским практикам журналистики. ## Результаты AI Blob! провел эксперименты с 1,547 видеозаписями, реализовав систему поиска и реконтекстуализации. В результате, возможность поиска по семантическим запросам была достигнута, что позволило значительно улучшить доступ к архивным материалам. Алгоритмы поиска векторной базы данных позволили реконструировать новые тематические последовательности, предоставляя пользователям более широкий выбор для анализа и создания новых номинативных структур. Это демонстрирует возможность поиска по семантическим характеристикам, а не только метаданным. ## Значимость AI Blob! может применяться в области исторического исследования, культурного анализа и архивальной работы. Он предлагает новые возможности для автоматизации и улучшения доступа к телевизионным архивам. В отличие от традиционных методов, он позволяет вести более точный поиск по тематическим запросам, что улучшает эффективность работы с

Annotation:

This paper introduces AI Blob!, an experimental system designed to explore the potential of semantic cataloging and Large Language Models (LLMs) for the retrieval and recontextualization of archival television footage. Drawing methodological inspiration from Italian television programs such as Blob (RAI Tre, 1989-), AI Blob! integrates automatic speech recognition (ASR), semantic embeddings, and retrieval-augmented generation (RAG) to organize and reinterpret archival content. The system process...

ID: 2508.09535v1 cs.MM, cs.AI, cs.CL, cs.DL

arXiv PDF

📄 How Persuasive Could LLMs Be? A First Study Combining Linguistic-Rhetorical Analysis and User Experiments

2025-08-15

Авторы:

Daniel Raffini, Agnese Macori, Lorenzo Porcaro, Tiziana Catarci, Marco Angelini

## Контекст Общение с искусственным интеллектом (ИИ), особенно с использованием технологий типа Large Language Models (LLMs), становится все более распространенным во всех сферах жизнедеятельности. Одна из ключевых вопросов, которые возникают в этой области, является потенциальная эффективность таких моделей в создании убедительных аргументированных текстов, которые могут влиять на социальную и политическую сферу. Несмотря на то, что LLMs, такие как ChatGPT, показали впечатляющую способность генерировать логично структурированные тексты, их эффективность в области убеждающей речи и политической деятельности еще не полностью оценена. Эта статья стремится заполнить эту нишу, рассматривая языковые и реторические особенности текстов, создаваемых LLMs, и их эффективность в убеждающем воздействии на читателей, особенно в сфере этичных вопросов. ## Метод Для достижения этой цели был проведен эксперимент, в рамках которого 62 участника прошли тесты перед и после взаимодействия с текстами, сгенерированными ChatGPT. Участники прочитали аргументированные тексты на этично-номинированные темы, такие как роль ИИ в образовании и медицине. Затем была проведена лингвистическая и реторическая анализирующая версии текстов, созданных генеративным ИИ. Основные показатели, рассматриваемые в анализе, включали макроструктуру аргументации, частоту использования формулировок, и стилистическую богатство. Эти параметры были измерены для определения того, насколько эффективно ChatGPT генерирует тексты, которые могут способствовать изменению точки зрения участников. ## Результаты Экспериментальные результаты показали, что тексты, сгенерированные ChatGPT, обладают высокой логичностью и согласованной макроструктурой. Однако они отмечаются низкой стилистической разнообразием и частотой использования формулировок. Лингвистический анализ также отмечал, что ChatGPT в силу своих алгоритмов ограничен в способности генерировать тексты, которые могут значительно изменить мнение читателя по этичным вопросам. Несмотря на то, что участники часто отмечали положительные аспекты, выделенные в текстах, их этические опасения не только не значительно уменьшились, но и, в некоторых случаях, усилились после чтения. ## Значимость Находки этого исследования имеют значительное значение для ряда областей. Во-первых, они могут быть применены для улучшения технологий генерирования текстов, особенно в сферах, где этические вопросы играют ключевую роль. Во-вторых, результаты могут быть полезны для разработки методов

Annotation:

This study examines the rhetorical and linguistic features of argumentative texts generated by ChatGPT on ethically nuanced topics and investigates their persuasive impact on human readers.Through a user study involving 62 participants and pre-post interaction surveys, the paper analyzes how exposure to AI-generated arguments affects opinion change and user perception. A linguistic and rhetorical analysis of the generated texts reveals a consistent argumentative macrostructure, reliance on formu...

ID: 2508.09614v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 A Close Reading Approach to Gender Narrative Biases in AI-Generated Stories

2025-08-15

Авторы:

Daniel Raffini, Agnese Macori, Marco Angelini, Tiziana Catarci

#### Контекст Гендерные биасы в искусственном интеллекте (ИИ) становятся все более актуальными в связи с ростом популярности технологий, которые становятся частью повседневной жизни. Исследователи подчеркивают, что гендерные предрассудки в текстах, генерируемых ИИ, могут повлиять на создание клише и укрепить существующие стереотипы. Это, в свою очередь, может привести к необоснованным предпочтениям в гендерных ролях и жизненных ситуациях. Однако многие исследования стремятся проанализировать эти проблемы с использованием метрик и статистического анализа, обходясь без подробного контекстуального исследования. В данной статье предлагается новый подход, основанный на "ближайшем чтении" (close reading), который позволяет глубже понять и оценить гендерные биасы в текстах, генерируемых с помощью ИИ. #### Метод Для исследования гендерных биасов использовались раскадровки стихотворных произведений, спроектированные на основе пропов Михаила Проппа (Propp's character classifications) и фрейговской структуры (Freytag’s narrative structure). Эти раскадровки были использованы для создания подробных заданий генерации текстов в ИИ-системах, включая ChatGPT, Gemini и Claude. Тексты были рассмотрены с пристальным вниманием к соответствию заданию, распределению пола среди персонажей, их физическим и психологическим описаниям, действиям и развитию сюжета. Затем проводился сравнительный анализ, чтобы выявить степень выраженности гендерных предрассудков и их влияние на развитие сюжета и отношения между персонажами. #### Результаты Исследование показало, что даже в условиях однозначного задания генерации текста системы ИИ продолжают проявлять гендерные предрассудки, особенно неявные. Например, женские персонажи чаще описываются в физическом контексте, в то время как мужские персонажи — в позиции владельца действия. Также выявлено, что гендерные стереотипы могут оказывать влияние на развитие сюжета, в том числе в отношениях между персонажами. Эти результаты иллюстрируют необходимость подхода, основанного на ближайшем чтении, для выявления и анализа неявных гендерных биасов в текстах ИИ. #### Значимость Предложенный подход к изучению гендерных биасов в текстах ИИ имеет широкие применения в области гуманитарных технологий, включая создание текстов, предназначенных для образовательных или развлекательных целей. Этот подход позволяет выявлять не только явные, но и неявные гендерные предрассудки, что может способствовать созданию более нейтральных текстов. Более того, этот подход может стать началом для развити

Annotation:

The paper explores the study of gender-based narrative biases in stories generated by ChatGPT, Gemini, and Claude. The prompt design draws on Propp's character classifications and Freytag's narrative structure. The stories are analyzed through a close reading approach, with particular attention to adherence to the prompt, gender distribution of characters, physical and psychological descriptions, actions, and finally, plot development and character relationships. The results reveal the persisten...

ID: 2508.09651v1 cs.HC, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 COME: Dual Structure-Semantic Learning with Collaborative MoE for Universal Lesion Detection Across Heterogeneous Ultrasound Datasets

2025-08-15

Авторы:

Lingyu Chen, Yawen Zeng, Yue Wang, Peng Wan, Guo-chen Ning, Hongen Liao, Daoqiang Zhang, Fang Chen

#### Контекст Анализ ультразвуковых изображений (US) широко применяется в медицине для диагностики различных заболеваний. Однако существуют значительные вызовы, связанные с ограниченностью размера данных, акустическими теньюми и раздражительным шумом. Эти факторы ограничивают переносимость моделей, обученных на одном наборе данных, к другим. Для того чтобы построить универсальную модель, которая была бы эффективной для разных ультразвуковых наборов данных, необходимо учитывать различия между ними и эффективно извлекать дискриминативные признаки. Поэтому, целью данного исследования является разработка универсального фреймворка, который бы способствовал улучшению общей точности детекции злокачественных образований в разных ультразвуковых данных. #### Метод Для развития универсальной модели был предложен метод **Universal Collaborative Mixture of Heterogeneous Source-Specific Experts (COME)**. Он состоит из двух главных компонентов: **универсальных структурно-семантических экспертов**, которые строят универсальное пространство представления, и **источник-специфических экспертов**, которые извлекают дискриминативные признаки для каждого отдельного набора данных. Метод COME работает следующим образом: первые эксперты создают обобщенное представление, а затем эти представления используются источник-специфическими экспертами для выделения признаков, относящихся к конкретной нагрузке. Эта конструкция позволяет модели COME лучше адаптироваться к новым данным и обеспечивает улучшения в общем знании за счет обмена опытом между разными наборами. #### Результаты Результаты экспериментов показывают, что модель COME выдает значительно лучшие результаты по сравнению с другими моделями. Она была протестирована на трех режимах: **одноданность**, **межорганическое** и **внутриорганическое** объединение наборов данных. На всех этих режимах COME показала значительные улучшения в метрике mean average precision (mAP) по сравнению с состоянием искусства. Например, на интегрированных наборах данных COME показала AP-улучшения до **15%** в сравнении с предыдущими моделями. Это демонстрирует высокую эффективность COME в обеспечении универсальной детекции злокачественных новообразований в разных ультразвуковых данных. #### Значимость Предлагаемый подход имеет значительное значение в области медицинского анализа изображений. Он может быть применен для развития универсальных моделей, которые будут эффективными для различных видов ультразвуковых изображений в разных задачах. COME позволяет улучшить точность детекции и обеспечивает более значимые результаты в медицинских приложениях. Данный подход может быть применен для глубокого обучения в других

Annotation:

Conventional single-dataset training often fails with new data distributions, especially in ultrasound (US) image analysis due to limited data, acoustic shadows, and speckle noise. Therefore, constructing a universal framework for multi-heterogeneous US datasets is imperative. However, a key challenge arises: how to effectively mitigate inter-dataset interference while preserving dataset-specific discriminative features for robust downstream task? Previous approaches utilize either a single sour...

ID: 2508.09886v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

2025-08-15

Авторы:

Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li

## Контекст Одним из актуальных направлений в области глубокого обучения является создание моделей, эффективно генерирующих изображения на основе текстовых описаний. Несмотря на успех моделей GPT-4o в этой области, существуют отклонения в синхронизации текстовых и изображенийных семантик, а также ограничения в доступности качественных данных для обучения. Эти проблемы приводят к недостаточной точности в обработке редких или сложных запросов пользователей, таких как создание изображений в сюрреалистических или многореферентных сценариях. Для устранения этих проблем необходимо развитие систем, которые могли бы совершенствоватьсюреалистическийсозданиемоделей, которые могли бы совершенствоваться с помощью высококачественных синтетических данных. ## Метод Методология Echo-4o основывается на создании и использовании синтетического данных, генерируемых с помощью GPT-4o. Эта модель порождает 180K-масштабные изображения, оптимизированные для заполнения пробелов в реальных данных, таких как наличие редких сценариев и чистых фонов. Для тонкой настройки базовой модели Bagel введен синтетический датасет Echo-4o-Image, предназначенный для улучшения текстово-изображенией синхронизации. Для точного оценки результатов были разработаны две новые эвалиационные бенчмарки: GenEval++ для оценки сложностных инструкций, и Imagine-Bench для оценки ответов на интеллектуально-изобразительные задачи. ## Результаты Основными результатами данного исследования является повышение точности генерирования изображений в сравнении с существующими моделями. В результатах экспериментов на популярных бенчмарках Echo-4o показал значительное улучшение в задачах текстово-изображательной синхронизации. Новые бенчмарки, например GenEval++, позволили избежать сковывающих результаты оценочные метрики, а Imagine-Bench продемонстрировал улучшение моделей в экспериментах с изображениями сложных сценариев. Более того, применение Echo-4o-Image к другим моделям (например, OmniGen2 и BLIP3-o) показало значительные повышения метрик по нескольким показателям. ## Значимость Результаты Echo-4o-Image могут быть применены в различных областях, включая создание контента, ретуширование изображений, и создание многореферентных изображений. Эта модель предлагает значительные преимущества в том числе чистоту синтетических данных, которые улучшают текстово-изображательную синхронизацию и расширяют возможности моделей глубокого обучения. Это может привести к значительному повышению качества изображений в различных приложениях, в том числе в создании рекламных материалов, интерактивных игр, и контента для социальных сетей. ## Выводы Echo-4o представ

Annotation:

Recently, GPT-4o has garnered significant attention for its strong performance in image generation, yet open-source models still lag behind. Several studies have explored distilling image data from GPT-4o to enhance open-source models, achieving notable progress. However, a key question remains: given that real-world image datasets already constitute a natural source of high-quality data, why should we use GPT-4o-generated synthetic data? In this work, we identify two key advantages of synthetic...

ID: 2508.09987v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities

2025-08-14

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст В последние годы значительный прогресс в области распознавания речи был достигнут благодаря развитию моделей Connectionist Temporal Classification (CTC). Однако стандартные средства для beam decoding, используемые для улучшения качества распознавания, часто ограничены по производительности, последовательны и требуют значительных ресурсов CPU. Это затрудняет эффективное использование современных GPU, которые могли бы значительно ускорить процесс. Далее, существующие решения либо требуют сложной настройки, либо не поддерживают расширенные возможности, такие как интеграция грамматических моделей или фаззинг фраз. Изложенная проблема мотивирует разработку производительного, расширяемого и понятного для пользователя средства для GPU-powered beam decoding. ## Метод FlexCTC — это опен-сорсный инструмент, разработанный на Python и PyTorch, предназначенный для решения проблем скорости и производительности в beam decoding для CTC-моделей. Архитектура FlexCTC основана на полностью батченной GPU-реализации, которая устраняет задержки синхронизации между CPU и GPU, а также использует CUDA Graphs для минимизации затрат на запуск курсоров. Для добавления расширенных возможностей, таких как фаззинг фраз и GPU-powered N-gram language model fusion, разработчики внедрили универсальный интерфейс для подключения дополнительных модулей. Это позволяет легко адаптировать систему под конкретные задачи и модели. ## Результаты На тестах с реальными данными FlexCTC показал значительные выигрыши в производительности по сравнению с существующими решениями. Тесты показали, что возможности GPU-based decoding позволяют обрабатывать большие объемы данных за меньшее время, что делает FlexCTC привлекательным для использования в production-ready системах. Также были проведены эксперименты с интеграцией грамматических моделей и фаззинга фраз, которые подтвердили повышение точности распознавания в сценариях сложности. ## Значимость FlexCTC широко может применяться в сферах распознавания речи, таких как транскрибирование аудио, поисковые системы и интерактивные системы управления. Его преимущества включают высокую производительность, полностью GPU-powered решение, расширенные возможности для контекстуализации и простоту использования благодаря интуитивно понятному интерфейсу. Эти особенности делают FlexCTC полезным инструментом как для научных исследований, так и для коммерческого применения. ## Выводы FlexCTC — это развивающееся и мощное решение для beam decoding в CTC-моделях. Его GPU-powered инфраструктура, простота использования и расширенные возможности контекстуализации делают его привлекательным для разработчиков и исследователей. Будущие работы будут направлены на улучшение производительности, добавление поддержки дополнительных моделей и

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v2 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

1
2
117
118
119
120
121
129
130

Показано 1181 - 1190 из 1292 записей