📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Astra: A Multi-Agent System for GPU Kernel Performance Optimization

2025-09-11

Авторы:

Anjiang Wei, Tianran Sun, Yogesh Seenichamy, Hang Song, Anne Ouyang, Azalia Mirhoseini, Ke Wang, Alex Aiken

## Контекст GPU kernel optimization является ключевым вопросом в области высокопроизводительных вычислений и машинного обучения. Эффективные GPU-ядра способствуют ускорению обучения и работы больших языковых моделей (LLM). Однако достижение высокой производительности часто требует значительных усилий вручную при настройке или использовании компиляторов. Даже с использованием существующих систем оптимизации кода, таких как LLMs для генерации CUDA-кода, получение оптимальной производительности ядра остается сложной задачей. Многие из этих подходов ориентируются на преобразование высокоуровневых спецификаций в CUDA-код. Но потребность в оптимальной производительности ядер для ЛЛМ приводит к новым аспектам, которые не учтены в существующих подходах. Мы предлагаем Astra, первую систему на основе многоагентных LLM для GPU-ядер, которая работает на основе существующих CUDA-кодов, а не на основе преобразования PyTorch-модулей. ## Метод Astra представляет собой многоагентную систему на основе LLM, которая применяет сотрудничество между агентами для кодовой генерации, тестирования, профилирования и планирования. Каждый агент отвечает за конкретный аспект оптимизации кода, такой как преобразование циклов, оптимизация доступа к памяти, использование CUDA-инструментов и применение быстрых математических операций. Исходные CUDA-коды извлекаются из SGLang, широко используемого фреймворка для серверного применения ЛЛМ. Агенты используют LLM для проведения экспериментов, профилирования, генерации новых вариантов кода и выбора оптимальных решений. Метод заключается в итеративном улучшении производительности ядер с помощью агентов, которые совместно решают задачи кодирования и профилирования. ## Результаты На кубах SGLang Astra достигает среднего ускорения 1.32x при использовании стилистического модели OpenAI o4-mini. Детальная случайная стадия показывает, что LLM-система может автономно применять циклические преобразования, оптимизировать доступ к памяти, использовать CUDA-инструменты и применять быстрые математические операции. Эти меры приводят к значительным улучшениям производительности. На основе экспериментов было показано, что Astra может значительно повысить производительность GPU-ядер без ручного вмешательства, что демонстрирует потенциал многоагентных LLM-систем в области оптимизации GPU-кода. ## Значимость Astra может применяться в сферах машинного обучения, высокопроизводительных вычислений и оптимизации GPU. Она предоставляет преимущества в скорости и эффективности в кодировании ядер GPU без ручного вмешательства. Это может привести к значительному сокращению времени и ресурсов

Annotation:

GPU kernel optimization has long been a central challenge at the intersection of high-performance computing and machine learning. Efficient kernels are crucial for accelerating large language model (LLM) training and serving, yet attaining high performance typically requires extensive manual tuning. Compiler-based systems reduce some of this burden, but still demand substantial manual design and engineering effort. Recently, researchers have explored using LLMs for GPU kernel generation, though ...

ID: 2509.07506v1 cs.DC, cs.AI, cs.CL, cs.LG, cs.SE

arXiv PDF

📄 Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data

2025-09-11

Авторы:

Gokul Karthik Kumar, Rishabh Saraf, Ludovick Lepauloux, Abdul Muneer, Billel Mokeddem, Hakim Hacid

#### Контекст В последние годы технологии звукового анализа и обработки языка стали ключевыми для развития интеллектуальных систем. Однако сочетание звукового анализа и естественного языка во многом остается недостаточно исследованом. Уже достигнутые успехи в области больших языковых моделей (LLMs) не полностью использованы для аудио-данных, несмотря на то, что звук является основополагающим средством человеческой коммуникации. Это ситуация стимулирует развитие аудио-языковых моделей (ALMs), которые могут обрабатывать и интерпретировать аудио-информацию вместе с текстовыми данными. Falcon3-Audio — это новая семейство ALMs, которые используют уже проинструктированные языковые модели и кодировщики звука с открытым кодом, такими как Whisper. Они предлагают новую точку зрения на объединение звуковых и текстовых данных. #### Метод Falcon3-Audio основана на современных трендах в обучении языковых моделей, но придерживается простоты в своей архитектуре. Она использует Whisper для кодирования звуковых сигналов и обучает языковую модель на основе существующих процедур обучения с инструкциями. Это позволяет проводить одностадийное обучение, не требуя дополнительных сложных методов, таких как курсивное обучение или многоэтапная архитектура. Используется минимальное количество аудио-данных — менее 30 тысяч часов (5 тысяч уникальных аудио-записей) — что демонстрирует высокую эффективность ресурсов. Набор данных Whisper, используемый для обучения, также обеспечивает широкий покрытие различных акцентов и языков. #### Результаты В ходе исследования Falcon3-Audio-7B демонстрирует выдающуюся эффективность, совпадая с результатами лучших моделей на открытом коде в задаче моделирования MMAU. Она построена на меньшем количестве параметров (7 миллиардов) и тренируется на меньшем количестве данных, чем многие соревновательные модели. Например, Falcon3-Audio-1B превосходит различные модели 2–13 миллиардов параметров, открытых и закрытых. Эти результаты достигнуты благодаря простоте архитектуры и эффективности используемых данных. Эксперименты также показали, что Falcon3-Audio достигает этих результатов без дополнительных сложных методов, что демонстрирует ее простоту и надёжность. #### Значимость Модель Falcon3-Audio открывает новый подход к объединению звуковых и текстовых данных в языковых моделях, снижая требования к объему обучающих данных и ресурсам вычислительных систем. Она может применяться в различных областях, включая распознавание речи, генерацию аудио-содержимого и анализ аудио-содержимого. Ее простота, эффектив

Annotation:

Large language models (LLMs) have transformed NLP, yet their integration with audio remains underexplored -- despite audio's centrality to human communication. We introduce Falcon3-Audio, a family of Audio-Language Models (ALMs) built on instruction-tuned LLMs and Whisper encoders. Using a remarkably small amount of public audio data -- less than 30K hours (5K unique) -- Falcon3-Audio-7B matches the best reported performance among open-weight models on the MMAU benchmark, with a score of 64.14, ...

ID: 2509.07526v1 cs.SD, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Biomedical Literature Q&A System Using Retrieval-Augmented Generation (RAG)

2025-09-10

Авторы:

Mansi Garg, Lee-Chi Wang, Bhavesh Ghanchi, Sanjana Dumpala, Shreyash Kakde, Yen Chih Chen

## Контекст Современные системы поиска информации в области медицины часто сталкиваются со сложностями в доступе к актуальной, утвержденной научной информации. Традиционные поисковые системы либо ограничиваются широкой общей информацией, либо не могут обеспечить доступ к полнотекстовым документам биомедицинской литературы. Это приводит к задержке в получении обновленных научных данных и снижению качества медицинской помощи. В этом контексте, развитие систем, которые могут эффективно обрабатывать биомедицинскую литературу и предоставлять точные ответы на вопросы, является ключевым для улучшения общего доступа к медицинской информации. ## Метод Разработанная система основывается на архитектуре Retrieval-Augmented Generation (RAG), которая объединяет модели генеративного текста с моделями кластерного поиска для точного восстановления информации. Для восстановления используется модель MiniLM с эмбеддингами семантического поиска, адаптированной для обработки биомедицинских текстов. Выборка данных включает PubMed-статьи, специально подготовленные наборы вопросов и ответов, а также медицинские энциклопедии. Модель Mistral-7B-v0.3, тренированная с использованием QLoRA, используется для генерирования контекстуальных и точных ответов. Запросы обрабатываются в несколько этапов: в первую очередь, используется поиск векторов с использованием Faiss для выбора наиболее подходящих документов, а затем генерируется конкретный ответ на основе выбранных статей. ## Результаты Система была оценена на задачах, связанных с биомедицинской литературой, в частности, в области рака молочной железы. Использовались метрики BERTScore (F1) для оценки точности фактической и семантической соответствия ответов. Результаты показали значительную улучшение в доступности и точности ответов по сравнению с базовыми моделями. Например, в случае с запросами по биомедицинским темам система показала более высокую точность в выборе информации и более наглядную генерацию ответов, что позволило улучшить степень доступности и понятности ответов для пользователей. ## Значимость Система может быть применена в различных областях, включая медицинскую практику, образовательные программы и общественный доступ к научной информации. Особый потенциал имеет применение в области личностной медицинской помощи, где пользователь может получить конкретные рекомендации на основе последних научных работ. Благодаря использованию языковых моделей с низким потреблением ресурсов, система эффективна даже в условиях ограниченных ресурсов, что делает её привлекательной для развития в разных регионах. Она так

Annotation:

This work presents a Biomedical Literature Question Answering (Q&A) system based on a Retrieval-Augmented Generation (RAG) architecture, designed to improve access to accurate, evidence-based medical information. Addressing the shortcomings of conventional health search engines and the lag in public access to biomedical research, the system integrates diverse sources, including PubMed articles, curated Q&A datasets, and medical encyclopedias ,to retrieve relevant information and generate concise...

ID: 2509.05505v1 cs.CL, cs.LG

arXiv PDF

📄 Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

2025-09-10

Авторы:

Waris Gill, Natalie Isak, Matthew Dressman

#### Контекст С появлением широкоизвестных языковых моделей (LLM) в энтерпрайз-системах возникла новая критическая проблема безопасности — распространение проблемы "промусолка инъекции запросов" (prompt injection attacks). Эти атаки могут повторяться в нескольких сервисах, которые обрабатывают пользовательские запросы, но существуют жесткие нормативные ограничения на обмен информацией об атаках. Регулярные требования препятствуют обмену жалобами и данными о проблемах между сервисами, что приводит к тому, что одни сервисы могут недостаточно быстро реагировать на подозрительные активности. Многие организации не могут полноценно оценить угрозы, так как не могут получить доступ к анализу данных из других сервисов. Однако, если бы была возможность безопасного обмена угрозными моделями взаимно полезной информацией, без разглашения конфиденциальных данных, это было бы ключевым решением для повышения безопасности. #### Метод Мы предлагаем BinaryShield, новую систему, которая позволяет безопасно обмениваться "угрозными отпечатками" (threat fingerprints) между LLM-сервисами. Метод шифрует данные, используя технологии, которые позволяют избежать раскрытия конфиденциальных данных в ходе обмена. Базовая идея заключается в том, чтобы превратить подозрительные запросы в некоторую форму уникальных "отпечатков", которые в то же время могут быть использованы для поиска подозрительных моделей, но не выдают информации, которая может подвергнуться неправомерному использованию. Основные этапы методики включают (1) удаление личных данных (PII redaction), (2) преобразование запросов в семантические ин Eмбеддинги (semantic embedding), (3) кодирование данных в бинарный формат (binary quantization), и (4) применение механизма случайных ответов (randomized response) для гарантии конфиденциальности. #### Результаты Мы провели ряд экспериментов для проверки эффективности BinaryShield. Использованы данные, содержащие подозрительные запросы, которые были сравнивались с другими данными для поиска подозрительных моделей. Метод BinaryShield показал высокую точность — F1-меру достигла 0.94, что значительно выше, чем у SimHash (0.77), стандартного метода приватности. Одновременно, BinaryShield позволил сократить требуемое место на хранения данных в 64 раза и увеличить скорость поиска подозрительных моделей в 38 раз по сравнению с традиционным подходом, основанным на технологии dense embeddings. #### Значимость BinaryShield демонстрирует значительный потенциал в обеспечении безопасности в сфере LLM-сервисов. Он предоставляет возможность для безопасного обмена информацией об угрозах между различными сервисами, даже если они работают в разных регуляторных сферах.

Annotation:

The widespread deployment of LLMs across enterprise services has created a critical security blind spot. Organizations operate multiple LLM services handling billions of queries daily, yet regulatory compliance boundaries prevent these services from sharing threat intelligence about prompt injection attacks, the top security risk for LLMs. When an attack is detected in one service, the same threat may persist undetected in others for months, as privacy regulations prohibit sharing user prompts a...

ID: 2509.05608v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

2025-09-10

Авторы:

Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai

## Контекст Ключевым вызовом в области звукового распознавания речи (ASR) является выравнивание акустических и лексических представлений для передачи знаний в предварительно обученных моделях. Эта проблема возникает из-за структуры и асимметрии отношений между акустическими и лексическими единицами. Например, несколько акустических фреймов могут соответствовать одному лексическому токену (многие-к-одному), тогда как определенные регионы акустических потоков могут соответствовать нескольким лексическим токенам (один-к-многим). Кроме того, акустический поток может включать нерелевантные фреймы, такие как шум или молчание, что приводит к условиям неравенства. Это вызывает сложности в создании точных и устойчивых моделей ASR. Наша мотивация заключается в развитии модели, которая эффективно справляется с этими проблемами, обеспечивая более точное выравнивание и улучшая передачу знаний в ASR. ## Метод Мы приняли новый подход, рассматривая выравнивание и соотнесение как задачу обнаружения, где целью является точно и полностью учесть лексические токены, при этом учитывая ненужные или шумные акустические фреймы. Для решения этой задачи мы предлагаем модель на основе неоднородного транспортного портфеля (unbalanced optimal transport). Эта модель способна гибко учитывать расхождения в распределениях между акустическими и лексическими моделями, обеспечивая способность к частичному и прозрачному соотнесению. Мы вводим метод, гарантирующий, что каждый лексический токен будет привязан к акустическому сигналу, при этом позволяя программным, предсказуемым сопоставлениям. Эта модель позволяет контролировать уровень соответствия и, таким образом, улучшать производительность ASR. ## Результаты Мы проводили эксперименты с CTC-базированной ASR-системой, использующей предварительно обученную модель языковой модели для передачи знаний. Мы использовали различные данные для тестирования, включая синтетические и реальные акустические потоки. Результаты показали, что наш подход эффективно обрабатывает расхождения в распределениях и повышает точность распознавания речи. Мы также проверили полноту и точность соотнесения, показав, что наша модель обеспечивает лучшую гибкость в учете ненужных акустических фреймов и улучшает стабильность ASR в условиях различных уровней шума. ## Значимость Предложенная модель имеет широкие возможности применения в области ASR и других задачах, требующих выравнивания различных моделей. Она предоставляет более точное и устойчивое выравнивание, что повышает качество распознавания речи. Это может привести к лучшей универсаль

Annotation:

Aligning acoustic and linguistic representations is a central challenge to bridge the pre-trained models in knowledge transfer for automatic speech recognition (ASR). This alignment is inherently structured and asymmetric: while multiple consecutive acoustic frames typically correspond to a single linguistic token (many-to-one), certain acoustic transition regions may relate to multiple adjacent tokens (one-to-many). Moreover, acoustic sequences often include frames with no linguistic counterpar...

ID: 2509.05609v1 cs.CL, cs.LG

arXiv PDF

📄 Interleaving Reasoning for Better Text-to-Image Generation

2025-09-10

Авторы:

Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin

#### Контекст В последние годы улучшение текстово-изображественных генераторов стало одной из наиболее активных областей исследований в области машинного обучения и искусственного интеллекта. Особенно заметны улучшения в области текстово-изображественных моделей, которые объединяют в себе функции понимания и синтеза. Однако существуют заметные проблемы в области следования инструкциям и хранения деталей при генерации изображений. Такие модели, как GPT-4, в свою очередь, показывают значительный прогресс в области синтеза изображений, но имеют свои ограничения в понимании инструкций. Таким образом, для достижения более высокого уровня качества и подробности в текстово-изображественной генерации необходима более глубокая интеграция текстового понимания и генерации изображений. #### Метод Мы предлагаем Interleaving Reasoning Generation (IRG), фреймворк, который реализует универсальную многорежимную модель понимания и генерации. Работа IRG основывается на методе "интерлеавенг реасионинг". Модель вначале генерирует текстовую интерпретацию изображения (thinking), затем, основываясь на этой интерпретации, генерирует изображение. Далее, модель проводит текстовую рефлексию (reflection), анализируя результат и выявляя мелкие детали, которые необходимо улучшить. Эти детали рефлексии включают в себя оценку визуальной ценности, корректности акцентов и точность описания. Обучение IRG происходит в два этапа: первый этап нацелен на создание графических данных, включая визуальное описание и текстовую интерпретацию, второй этап — на точку рефининга, чтобы гарантировать качество и точность в итоговой генерации. #### Результаты Мы проводили эксперименты на различных данных, в том числе на многорежимных датасетах, подтвердив высокую эффективность IRG. Модель показала важное улучшение в генерации изображений с высоким детализированным характером. Также мы провели метрические оценки, которые показали, что IRG получил высокие результаты на таких метриках, как GenEval, WISE, TIIF и другие. Мы также оценили качество генерируемых изображений по тестам сгенерированных изображений в контексте текста. Наши результаты показали значительное улучшение качества изображений, в том числе в улучшении точности деталей и визуальной четкости генерируемых изображений. #### Значимость Interleaving Reasoning Generation может быть применен в различных областях, включая генерацию высококачественных изображений для коммерческих и розничных приложений, синтез изображений для искусственных зрения и генерацию изображений в области полязии и компьютерного зрения. Это модель

Annotation:

Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework ...

ID: 2509.06945v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

2025-09-10

Авторы:

James Xu Zhao, Bryan Hooi, See-Kiong Ng

#### Контекст Проблема эффективности интерпретации моделей глубокого обучения возникает в рамках развития знаний-интенсивных задач, где точность и отсутствие халлюцинаций (недостоверных ответов) являются критичными. Тест-тайм скалирование (test-time scaling, TTS) позволяет моделям увеличивать вычисления во время инференции, генерируя длинные цепи рассуждений. Несмотря на успех этого подхода в многих областях, в настоящем исследовании мы рассматриваем его неэффективность в знаний-интенсивных задачах. #### Метод Мы проводим оценку TTS на 12 моделях логического рассуждения в двух бенчмарках, характерных для знаний-интенсивных задач. Используемые модели включают модели с различными архитектурами, подходами и способами увеличения вычислительной сложности во время инференции. Мы измеряем точность результатов, частоту халлюцинаций, а также проводим анализ поведения моделей в зависимости от расширенных рассуждений. #### Результаты Наши эксперименты показывают, что TTS не способен постоянно улучшать точность в знаний-интенсивных задачах. В некоторых случаях он даже приводит к увеличению частоты халлюцинаций. Мы обнаружили, что модели часто воздерживаются от ответов при длинных рассуждениях, что приводит к снижению частоты халлюцинаций. Тем не менее, длительное рассуждение может побуждать модели попытаться ответить на вопросы, на которые они ранее отказались отвечать, что приводит к новым халлюцинациям. Были проведены случайные исследования, показавшие, что TTS может вдохновить модели на подтверждение неверных халлюцинаций, что усиливает конфирмационные биазы. #### Значимость Результаты имеют практическое значение для аспирантов, работающих с моделями знаний-интенсивных задач, такими как системы ответа на вопросы, генерация текста и решение задач логического рассуждения. Наше исследование показывает, что TTS может не являться приоритетным подходом для этих задач, несмотря на его полезность в других сферах. Мы также отмечаем, что хотя TTS может повысить точность в некоторых случаях, оно не может быть рассматривано как широко применимый инструмент для улучшения задач знаний-интенсивных. #### Выводы Наши результаты подтверждают, что TTS не является эффективным для знаний-интенсивных задач, несмотря на его успех в других областях. Мы призываем к углубленному исследованию эффективных методов улучшения точности и уменьшения халлюцинаций в знаний-интенсивных моделях. Наша работа открывает путь к будущим исследованиям в области разработки моделей, которые могут более точно и надежно работать в знани

Annotation:

Test-time scaling increases inference-time computation by allowing models to generate long reasoning chains, and has shown strong performance across many domains. However, in this work, we show that this approach is not yet effective for knowledge-intensive tasks, where high factual accuracy and low hallucination rates are essential. We conduct a comprehensive evaluation of test-time scaling using 12 reasoning models on two knowledge-intensive benchmarks. Our results reveal that increasing test-...

ID: 2509.06861v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

2025-09-10

Авторы:

Jiacheng Miao, Joe R. Davis, Jonathan K. Pritchard, James Zou

## Контекст Решение проблем с доступностью и реализацией научных работ приобретает важность в свет увеличения количества исследований и сложности их понимания. Даже существующие инструменты, такие как GitHub или Papers with Code, часто не полностью устраняют барьеры для использования и доверия к научным работам. Они не обеспечивают интерактивности, автоматизации и широкого доступа. Paper2Agent предлагает решение, превращая статические научные работы в динамические, интерактивные AI-агенты. Это позволяет увеличить доступность, точность и удобство применения научных работ, обеспечивая новую модель интеллектуального взаимодействия. ## Метод Процесс преобразования научной работы в AI-агент основывается на автоматическом извлечении и анализе кода, данных и методов из текста работы. Используется архитектура Model Context Protocol (MCP), состоящая из нескольких агентов, которые создают протокол для широкого применения. Этот протокол включает в себя тестирование и выявление ошибок, чтобы обеспечить надежность результатов. Paper2Agent использует систему Claude Code для взаимодействия с пользователем через естественный язык, при этом активируя инструменты и рабочие процессы, описанные в исследовании. Для валидации результатов используются случаи, применимые к реальной научной практике. ## Результаты Применение Paper2Agent продемонстрировало мощь этой системы в создании надежных агентов на основе научных работ. К примеру, агент, основанный на AlphaGenome, может интерпретировать геномные варианты, тогда как агенты, основанные на ScanPy и TISSUE, выполняют анализы сингулярного момента и пространственных транскриптомеров. Эти агенты способны воспроизводить результаты из оригинальных работ и отвечать на сложные запросы пользователей. Это демонстрирует высокую точность и кросс-сценарное применение технологии. ## Значимость Paper2Agent может применяться в различных научных областях, включая геномику, биоинформатику и транскриптометрию. Он обеспечивает расширение возможностей для участников научных работ, включая исследователей, специалистов по данным и разработчиков. Данная технология ускоряет создание, использование и распространение научных знаний, повышая точность, доступность и удобство. Будущие работы могут сосредоточиться на расширении функционала, включая поддержку новых научных областей и улучшение интерактивности. ## Выводы Paper2Agent представляет собой перспективный подход к преобразованию научных работ в интерактивные AI-агенты, обеспечивая новый уровень коммуникации и использования научных знаний. Этот подход может быть расширен для автоматизации и улучшения процессов в научной практике. Будущие исследования будут сф

Annotation:

We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting ...

ID: 2509.06917v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Interleaving Reasoning for Better Text-to-Image Generation

2025-09-10

Авторы:

#### Контекст Современные мультимодальные модели, объединяющие понимание и генерацию изображений, показали заметный прогресс в области текст-к-изображению (T2I). Однако, несмотря на это, остается заметное различие в способности следовать инструкциям и сохранять детали в сравнении с моделями, где понимание и генерация тесно связаны, такими как GPT-4. Это снижает их эффективность в реализации точных и абстрактных пожеланий пользователей. Данная работа ориентируется на исследование роли интерлейвинга (interleaving reasoning) — методики, где модель анализирует текстовые подсказки, генерирует изображение, а затем проводит внутренний анализ для доработки деталей и качества. Мы задаем вопрос: могут ли такие подходы улучшить тексто-к-изображению? #### Метод Мы предлагаем **Interleaving Reasoning Generation (IRG)** — рамформу, в которой модель построчно следует циклу "мысль — генерация изображения — отработка деталей". В первом этапе, модель производит рассуждения на основе текста, чтобы направить начальную генерацию изображения. Во втором этапе, после проверки результата, модель вносит корректировки, выражаясь в текстовой форме, чтобы улучшить детали, цветовую гамму, визуальную атмосферу и соблюдение семантики. Для обучения IRG мы разрабатываем **Interleaving Reasoning Generation Learning (IRGL)** — методологию, которая разделяет обучение на два этапа: 1. Укрепление "мысли-генерации" для гарантии устойчивости и качества генерируемых изображений; 2. Обеспечение точной рефлексии текстовых корректировок и их внедрения в изображение. Мы создали **IRGL-300K** — большущую выборку, состоящую из шести разделенных подсистем, покрывающих обучение текстовым рассуждениям и полной траектории "мысль-генерация". Наша модель, основанная на универсальной модели с возможностью вывода на разных уровнях (текст и изображение), проходит два этапа обучения: - Обучение научиться "мыслить" и "генерировать"; - Оптимизация всего процесса "мысль-генерация-рефлексия-генерация". #### Результаты Мы провели многочисленные эксперименты на различных б BENCHMARKS (таких как GenEval, WISE, TIIF, GenAI-Bench, OneIG-EN) и сравнили наш результат с современными моделями. Удался определённый прогресс: - Общий показатель GenEval возрос на 5–10 баллов в разных условиях; - Улучшение в метрике WISE, отражающей способность следовать инструкциям; - Значительное улучшение в TIIF, которая оценивает подробности и визуальную точность; - Значительные показатели в GenAI-Bench и OneIG-EN. Также было замечено улучшение визуального качества и точности в деталях, что демонстрирует эффективность нашего подхода в сохранении сем

Annotation:

ID: 2509.06945v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 DarkStream: real-time speech anonymization with low latency

2025-09-09

Авторы:

Waris Quamer, Ricardo Gutierrez-Osuna

## Контекст В modern era цифровых коммуникаций, защита частности говорящих становится ключевым вопросом, особенно при реализации реального времени. Speech anonymization становится важным средством для защиты идентичности говорящих в аудио- и видеоконтенте. Существующие методы, такие как возможность заменить голос на синтезированный, который не требует защиты идентичности, либо не учитывают другие нюансы, такие как языковые контексты. Такие проблемы могут привести к коллизиям в защите идентичности и потерей языковой интеллектуальности (WER). Таким образом, нужно разработать решение, которое обеспечит эффективную защиту идентичности без ущерба для языкового контента. DarkStream предлагает innovative approach, который решает эти проблемы в реальном времени. ## Метод DarkStream — это streaming speech synthesis model, который реализует real-time speaker anonymization. Он объединяет causal waveform encoder, который захватывает звуковые сигналы в реальном времени, short lookahead buffer для повышения accuracy при минимальных задержках, и transformer-based contextual layers для улучшения content encoding. Чтобы уменьшить inference time, model generates waveforms непосредственно с помощью neural vocoder, что устраняет intermediate mel-spectrogram conversions. Для защиты идентичности, DarkStream инжектирует GAN-generated pseudo-speaker embedding в linguistic features, полученные из content encoder. Этот approach обеспечивает strong anonymization при минимальном ущербе для linguistic intelligibility. ## Результаты Evaluations показывают, что DarkStream достигает strong anonymization, с EER (Equal Error Rate) speaker verification на значение около 50% в lazy-informed attack сценарии, что соответствует near-chance performance. Такое значение EER является критически важным для защиты идентичности. И, при этом, linguistic intelligibility сохраняется на удовлетворительном уровне, с WER (Word Error Rate) в районе 9%. Эти результаты указывают на баланс между low-latency, robust privacy и minimal intelligibility degradation, что делает DarkStream практичным решением для privacy-preserving real-time speech communication. ## Значимость DarkStream может быть применен в различных областях, таких как real-time communication, voice assistants, secure speech processing, и другие. Оно предоставляет несколько преимуществ, таких как: - **High-quality anonymization**, сохраняющая языковую интеллектуальность. - **Efficiency**, посредством removal intermediate mel-spectrogram conversions. - **Low-latency решение**, которое может быть использовано в real-time сценариях. Potential impact включает в себя улучшение privacy в digital communication, защиту частности говорящих, и повышение уровня security в системах voice authentication и других. ## Выводы DarkStream предлагает innovative approach для real-time speech anonymization, который достигает strong anonymization с низкой latency и сохраняет linguistic intelligibility. Это решение может иметь важное применение в различных областях, таких как voice assistants, secure communication, и другие. Будущие исследования будут сконцентрированы на улучшении model robustness, увеличении scalability, и улучшении звукового качества для более широкого применения в digital communication.

Annotation:

We propose DarkStream, a streaming speech synthesis model for real-time speaker anonymization. To improve content encoding under strict latency constraints, DarkStream combines a causal waveform encoder, a short lookahead buffer, and transformer-based contextual layers. To further reduce inference time, the model generates waveforms directly via a neural vocoder, thus removing intermediate mel-spectrogram conversions. Finally, DarkStream anonymizes speaker identity by injecting a GAN-generated p...

ID: 2509.04667v1 eess.AS, cs.CL, cs.LG

arXiv PDF

Показано 411 - 420 из 573 записей