DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer
2508.13786v1
cs.SD, cs.AI
2025-08-21
Авторы:
Yisu Liu, Chenxing Li, Wanqian Zhang, Wenfu Wang, Meng Yu, Ruibo Fu, Zheng Lin, Weiping Wang, Dong Yu
Резюме на русском
## Контекст
Современное искусственное интеллектуальное зрение сталкивается с целым рядом проблем, связанных с предобработкой и оптимизацией данных. Одним из ключевых вопросов является эффективное управление данными в реальном времени, обеспечение высокой скорости обработки и гибкости в адаптации к различным сценариям применения. Наиболее актуальными проблемами являются многоуровневая аналитика, включающая в себя четкость данных, структурированность и понятность, а также их преобразование в удобной форме для последующей обработки. Недостаток эффективных инструментов для автоматической обработки и классификации данных приводит к затрудненной работе специалистов и потребности в ручной моделировании, что не всегда эффективно.
## Метод
Для решения данных проблем был разработан метод, основанный на применении нейросетевых моделей, который работает в реальном времени и может анализировать входящие данные, а также их структуру. Используется модель, которая автоматически формирует структуру данных, определяя их природу, виды и характеристики. Разработанная модель основывается на многоуровневом анализе, при этом применяются методы нейронных сетей, позволяющие эффективно выделить информацию из неструктурированных или хаотических данных. Также в ней внедрены методы машинного обучения, которые могут автоматически формировать представления данных, учитывая их специфику и потребности.
## Результаты
На основе разработанной модели проводились эксперименты на различных наборах данных, включая как структурированные так и неструктурированные. Были изменены параметры модели для оптимизации процесса обработки и извлечения важной информации. Результаты этих экспериментов показали, что модель достигает высокой точности в классификации и анализе данных, что значительно увеличивает эффективность процесса и сокращает время выполнения работ. В результате модель позволяет упростить процесс взвешивания и анализа данных, а также обеспечить высокую точность результатов.
## Значимость
Разработанный метод может быть применён в различных областях, где необходима эффективная обработка и классификация данных. Например, в сферах мониторинга, аналитики данных, а также для управления информационными системами. Этот подход может быть важным для улучшения качества работы роботов-аналитиков, повышения эффективности работы систем, а также для ускорения процесса принятия решений в различных областях. Данный метод позволяет автоматизировать большую часть работы, что в свою очередь уменьшает трудозатраты и повышает качество результатов.
## Выводы
В результате проведен
Abstract
Controllable text-to-audio generation aims to synthesize audio from textual
descriptions while satisfying user-specified constraints, including event
types, temporal sequences, and onset and offset timestamps. This enables
precise control over both the content and temporal structure of the generated
audio. Despite recent progress, existing methods still face inherent trade-offs
among accurate temporal localization, open-vocabulary scalability, and
practical efficiency. To address these challenges, we propose DegDiT, a novel
dynamic event graph-guided diffusion transformer framework for open-vocabulary
controllable audio generation. DegDiT encodes the events in the description as
structured dynamic graphs. The nodes in each graph are designed to represent
three aspects: semantic features, temporal attributes, and inter-event
connections. A graph transformer is employed to integrate these nodes and
produce contextualized event embeddings that serve as guidance for the
diffusion model. To ensure high-quality and diverse training data, we introduce
a quality-balanced data selection pipeline that combines hierarchical event
annotation with multi-criteria quality scoring, resulting in a curated dataset
with semantic diversity. Furthermore, we present consensus preference
optimization, facilitating audio generation through consensus among multiple
reward signals. Extensive experiments on AudioCondition, DESED, and AudioTime
datasets demonstrate that DegDiT achieves state-of-the-art performances across
a variety of objective and subjective evaluation metrics.
Ссылки и действия
Дополнительные ресурсы: