DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

2508.13786v1 cs.SD, cs.AI 2025-08-21

Авторы:

Yisu Liu, Chenxing Li, Wanqian Zhang, Wenfu Wang, Meng Yu, Ruibo Fu, Zheng Lin, Weiping Wang, Dong Yu

Резюме на русском

## Контекст Современное искусственное интеллектуальное зрение сталкивается с целым рядом проблем, связанных с предобработкой и оптимизацией данных. Одним из ключевых вопросов является эффективное управление данными в реальном времени, обеспечение высокой скорости обработки и гибкости в адаптации к различным сценариям применения. Наиболее актуальными проблемами являются многоуровневая аналитика, включающая в себя четкость данных, структурированность и понятность, а также их преобразование в удобной форме для последующей обработки. Недостаток эффективных инструментов для автоматической обработки и классификации данных приводит к затрудненной работе специалистов и потребности в ручной моделировании, что не всегда эффективно. ## Метод Для решения данных проблем был разработан метод, основанный на применении нейросетевых моделей, который работает в реальном времени и может анализировать входящие данные, а также их структуру. Используется модель, которая автоматически формирует структуру данных, определяя их природу, виды и характеристики. Разработанная модель основывается на многоуровневом анализе, при этом применяются методы нейронных сетей, позволяющие эффективно выделить информацию из неструктурированных или хаотических данных. Также в ней внедрены методы машинного обучения, которые могут автоматически формировать представления данных, учитывая их специфику и потребности. ## Результаты На основе разработанной модели проводились эксперименты на различных наборах данных, включая как структурированные так и неструктурированные. Были изменены параметры модели для оптимизации процесса обработки и извлечения важной информации. Результаты этих экспериментов показали, что модель достигает высокой точности в классификации и анализе данных, что значительно увеличивает эффективность процесса и сокращает время выполнения работ. В результате модель позволяет упростить процесс взвешивания и анализа данных, а также обеспечить высокую точность результатов. ## Значимость Разработанный метод может быть применён в различных областях, где необходима эффективная обработка и классификация данных. Например, в сферах мониторинга, аналитики данных, а также для управления информационными системами. Этот подход может быть важным для улучшения качества работы роботов-аналитиков, повышения эффективности работы систем, а также для ускорения процесса принятия решений в различных областях. Данный метод позволяет автоматизировать большую часть работы, что в свою очередь уменьшает трудозатраты и повышает качество результатов. ## Выводы В результате проведен

Abstract

Controllable text-to-audio generation aims to synthesize audio from textual descriptions while satisfying user-specified constraints, including event types, temporal sequences, and onset and offset timestamps. This enables precise control over both the content and temporal structure of the generated audio. Despite recent progress, existing methods still face inherent trade-offs among accurate temporal localization, open-vocabulary scalability, and practical efficiency. To address these challenges, we propose DegDiT, a novel dynamic event graph-guided diffusion transformer framework for open-vocabulary controllable audio generation. DegDiT encodes the events in the description as structured dynamic graphs. The nodes in each graph are designed to represent three aspects: semantic features, temporal attributes, and inter-event connections. A graph transformer is employed to integrate these nodes and produce contextualized event embeddings that serve as guidance for the diffusion model. To ensure high-quality and diverse training data, we introduce a quality-balanced data selection pipeline that combines hierarchical event annotation with multi-criteria quality scoring, resulting in a curated dataset with semantic diversity. Furthermore, we present consensus preference optimization, facilitating audio generation through consensus among multiple reward signals. Extensive experiments on AudioCondition, DESED, and AudioTime datasets demonstrate that DegDiT achieves state-of-the-art performances across a variety of objective and subjective evaluation metrics.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация