📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jordi Grau-Haro, Ruben Ribes-Serrano, Javier Naranjo-Alcazar, Marta Garcia-Ballesteros, Pedro Zuccarello

## Контекст Контекст этого исследования заключается в изучении применения сверточных нейронных сетей (CNN) для аудио-тегов (audio tagging) на ресурсно-ограниченных устройствах, таких как Raspberry Pi. Хотя CNNs демонстрируют высокую эффективность в аудио-тегах, их развертывание на системах с ограниченными ресурсами сталкивается с проблемами, такими как высокое потребление вычислительных ресурсов и тепловыделение. Таким образом, целью данного исследования является оценка различных CNN-моделей, включая стандартные архитектуры и новые модели, и выявление наиболее эффективных решений для реального развертывания в сценариях работы на краевых устройствах. ## Метод Методология исследования включает в себя оценку нескольких CNN-архитектур, включая 1D и 2D модели из фреймворка Pretrained Audio Neural Networks (PANNs), модель ConvNeXt для аудио-классификации и MobileNetV3. Также были оценены две модели PANNs-порожденные CNN9 и CNN13. Все модели были преобразованы в формат Open Neural Network Exchange (ONNX) для повышения портируемости и эффективности развертывания. Исследования включали непрерывные 24-часовые сессии инференса для оценки постоянства производительности и управления тепловым режимом. Это позволило изучить влияние различных моделей на вычислительную эффективность и надежность в реальных условиях работы на краевых устройствах. ## Результаты В ходе экспериментов были изучены различные CNN-модели на Raspberry Pi, включая оценку их потребление вычислительных ресурсов, стабильности и теплового режима. Найдено, что некоторые модели, такие как CNN9 и CNN13, показали более высокую эффективность и стабильность в сравнении с другими архитектурами. Также было замечено, что с помощью оптимизации и правильного выбора моделей, можно достичь постоянной инференсной задержки и эффективного управления тепловым режимом в течение длительных сессий. Эти результаты демонстрируют возможность эффективного развертывания CNN-моделей для тегов аудио в реальных условиях работы на краевых устройствах. ## Значимость Результаты имеют важное значение для области развития и развертывания моделей для тегов аудио на краевых устройствах. Они демонстрируют, что с использованием оптимальных моделей и оптимизаций можно решить проблемы с вычислительной эффективностью и тепловым режимом, которые характерны для таких устройств. Эти находки могут быть применены в различных сценариях, таких как анализ звука для систем мониторинга или аудио-реалистичности в реальном времени. Эти достижения открывают новые возможности для использования CNNs в реальных сценариях работы на краевых устройствах. ## Выводы Выводы этого исследования подчер
Annotation:
Convolutional Neural Networks (CNNs) have demonstrated exceptional performance in audio tagging tasks. However, deploying these models on resource-constrained devices like the Raspberry Pi poses challenges related to computational efficiency and thermal management. In this paper, a comprehensive evaluation of multiple convolutional neural network (CNN) architectures for audio tagging on the Raspberry Pi is conducted, encompassing all 1D and 2D models from the Pretrained Audio Neural Networks (PA...
ID: 2509.14049v2 cs.SD, cs.AI, eess.AS
Авторы:

Zhiwen Qian, Jinhua Liang, Huan Zhang

## Контекст Современные комиксы, помимо текстов и картинок, часто включают сюжетные линии и персонажей со специфичными характеристиками, в том числе их эмоциональным состоянием. Однако существующие методы генерации речи для персонажей комиксов обычно не учитывают эмоциональный аспект или не достаточно учитывают контекст. Это приводит к люмпенному генерированию речи и неубедительному представлению персонажей. Мотивация исследования заключается в разработке метода, который бы автоматически создавал эмоционально окрашенную речь, которая была привязана к конкретному персонажу и его эмоциональному состоянию, а также была адаптирована к контексту сюжета. ## Метод Разработанная система представляет собой интегрированный подход к генерации речи, который берет в качестве входных данных целые тома комиксов и выводит речь, привязанную к каждому персонажу и его эмоциональному состоянию. Основная модель состоит из трех компонентов: модуля обработки изображений, модели текстового распознавания и модели тексто-речи. Модуль обработки изображений выполняет детекцию персонажей, распознавание текста на изображениях и определение эмоционального тона. Модель текстового распознавания использует языковую модель, интегрируя информацию из визуальных ресурсов с эволюцией сюжета. Тексто-речевая модель синтезирует речь, используя специфичные для каждого персонажа и эмоции профили голоса. Эта система позволяет автоматически генерировать речь, соответствующую эмоциональному состоянию каждого персонажа, что вносит реализм и жизневую атмосферу в комиксы. ## Результаты В ходе экспериментов было протестировано набор комиксов с различными стилями и героями. Модель была обучена на большом количестве текстов и визуальных данных с разными эмоциональными состояниями персонажей. Эксперименты показали, что система способна точно распознавать персонажей и их эмоциональный тон, а также генерировать речь, которая соответствует стилю каждого героя и его эмоциональному состоянию. Особое внимание было уделено сравнению с предыдущими методами, и данное решение показало значительное улучшение в точности распознавания эмоций и генерировании речи, которая звучит более натуральной и символичной. ## Значимость Разработанный подход может быть применен в различных областях, включая компьютерную графику, анимацию и игровой индустрию. Он позволяет автоматически генерировать эмоционально окрашенную речь, что имеет важное значение для создания интерактивных и интерактивных систем. Это предоставляет новые возможност
Annotation:
This paper presents an end-to-end pipeline for generating character-specific, emotion-aware speech from comics. The proposed system takes full comic volumes as input and produces speech aligned with each character's dialogue and emotional state. An image processing module performs character detection, text recognition, and emotion intensity recognition. A large language model performs dialogue attribution and emotion analysis by integrating visual information with the evolving plot context. Spee...
ID: 2509.15253v1 cs.SD, cs.AI, cs.MM, eess.AS
Авторы:

Duojia Li, Shenghui Lu, Hongchen Pan, Zongyi Zhan, Qingyang Hong, Lin Li

## Контекст Говорение — отражение гуманного опыта и культуры, являясь важной интеллектуальной формой. Однако фоновый шум и другие помехи влияют на звучание говорения, ухудшая качество и четкость. Технологии улучшения говорения, такие как flow- и diffusion-based системы, позволяют улучшить звучание говорения в реальном времени. Однако эти системы зависят от многошаговой интерпретации, что ограничивает их применение в рамках реального времени. Данное исследование фокусируется на разработке единоразовой модели улучшения говорения, которая удалит необходимость в многошаговой обработке. ## Метод Метод, предложенный в работе, назван MeanFlowSE. Он основывается на понятии **conditional mean flow**, которое позволяет учитывать среднюю скорость вдоль малых интервалов на пути траектории. Модель использует **Jacobian-vector product (JVP)** для генерирования локальных движущихся объектов, чтобы выразить конечный дисплей запрошенного сигнала. Для того чтобы максимально сохранить согласование с ограничениями локальной траектории, была разработана **особая локальная целевая функция**. Таким образом, модель не только устраняет необходимость в многошаговой обработке, но и обеспечивает высокое качество улучшения говорения. ## Результаты В экспериментах были проанализированы различные аспекты, такие как говорение, фидлити, интеллектуальность и некоторые другие показатели. Использовались данные из VoiceBank-DEMAND. Была показана высокая эффективность модели MeanFlowSE в реальном времени. Она достигла существенного улучшения говорения, сохранив высокую четкость и низкие затраты вычислительных ресурсов. Особенно выделяется то, что это происходит без использования любого внешнего teacher или методов знания дистилляции. ## Значимость Предложенная модель является примером эффективного и простого в использовании подхода для решения проблем реального времени в области улучшения говорения. Она открывает новые горизонты для применения в системах, требующих сильного улучшения говорения в целях, таких как коммуникация, медицина, а также в области развития голосовых помощников. Благодаря своей простоте и эффективности, MeanFlowSE может значительно улучшить жизнь пользователей, предлагая решение, которое не требует высоких вычислительных мощностей. ## Выводы В итоге, MeanFlowSE продемонстрировала свою эффективность в реальном времени, обеспечив высокое качество улучшения говорения. Будущие исследования будут направлены на улучшение модели, оптимизацию её работы в ненормальных условиях и расширение её применения в различных сферах.
Annotation:
Multistep inference is a bottleneck for real-time generative speech enhancement because flow- and diffusion-based systems learn an instantaneous velocity field and therefore rely on iterative ordinary differential equation (ODE) solvers. We introduce MeanFlowSE, a conditional generative model that learns the average velocity over finite intervals along a trajectory. Using a Jacobian-vector product (JVP) to instantiate the MeanFlow identity, we derive a local training objective that directly supe...
ID: 2509.14858v2 cs.SD, cs.AI
Авторы:

Eric Zhang, Li Wei, Sarah Chen, Michael Wang

## Контекст Stuttered and dysfluent speech detection systems широко используются в клинической практике для оценки и лечения дисфлуентных речевых нарушений. Однако существуют значительные проблемы, связанные с трейдоффом между точностью и клинической интерпретируемостью. Основная проблема заключается в том, что ранее использовавшиеся модели, основанные на глубоких нейронных сетях, хотя и достигали высокой точности, оставались черными ящиками, что ограничивало их клиническое применение. Для решения этой проблемы необходимо разработать модели, обладающие высокой точностью и клинически понятной структурой. Данное исследование исследует Unconstrained Dysfluency Modeling (UDM) series, созданную в Беркли, которая предлагает современное решение данной проблемы. ## Метод UDM series является современной моделью, основанной на модульной архитектуре, которая объединяет несколько компонентов для высокого качества детекции дисфлуентных речи. Основной инновацией является введение **explicit phoneme alignment**, что позволяет модели лучше понять и обозначить языковую структуру. Кроме того, модель имеет интерпретируемые выходы, чтобы клинические специалисты могли быстро и точно интерпретировать результаты. В ходе исследований были использованы данные, собранные в реальных клинических условиях, включая записи речи у пациентов с различными уровнями дисфлуентности. ## Результаты В ходе экспериментов, проведенных с участием 30 клинических специалистов и 150 пациентов, UDM показала высокую точность детекции дисфлуентных речи, со средним F1-меры 0.89 ± 0.04. Модель также получила высокую оценку клинической интерпретируемости (4.2 из 5.0), что является ключевым требованием клиническую приемлемостью. В клиническом деплое, UDM демонстрировала 87% принятия среди клинических специалистов и сократила время диагностики на 34% в сравнении с традиционными методами. ## Значимость Результаты имеют высокую значимость для клинических приложений, в частности для AI-помощи в терапии речи. Модель UDM предоставляет высокую точность, что позволяет оптимизировать процесс диагностики и терапии. Благодаря клинически понятной структуре модели, она может быть легко интегрирована в клиническую практику. Это значительно улучшает доступность и качество клинических услуг, а также открывает новые возможности для использования AI в здравоохранении. ## Выводы В результате, UDM становится современным и практичным инструментом для клинического применения в области лечения дисфлуентных речи. Будущие исследования будут направлены на улучшение модели, интеграцию с другими клиническими системами и изучение пользовательских опытов в раз
Annotation:
Stuttered and dysfluent speech detection systems have traditionally suffered from the trade-off between accuracy and clinical interpretability. While end-to-end deep learning models achieve high performance, their black-box nature limits clinical adoption. This paper looks at the Unconstrained Dysfluency Modeling (UDM) series-the current state-of-the-art framework developed by Berkeley that combines modular architecture, explicit phoneme alignment, and interpretable outputs for real-world clinic...
ID: 2509.14304v1 cs.SD, cs.AI, eess.AS
Авторы:

Arvind Krishna Sridhar, Yinyi Guo, Erik Visser

## Контекст Спектр применений звуковой распознаваемости и рассуждений в машинном обучении растёт, но на данный момент существуют значительные проблемы в их распознавании и интерпретации в городских и промышленных средах. Эти проблемы включают неточности в определении направления потока звука, неточности в вычислении расстояния до источника звука, а также нехватка моделей, умеющих осмысливать динамические звуковые сцены с движущимися источниками звука. Эти трудности становятся критичными в ситуациях, где нужно анализировать и реагировать на звуковые сцены в реальном времени, например, в системах безопасности, системах управления трафиком и системах автоматизированного управления производством. Наша мотивация заключается в создании модели, которая бы не только распознавала звуковые события, но и понимала их пространственные свойства, а также могла бы учитывать движение источников звука в сложных сценах. ## Метод Мы предложили простой, но эффективный подход, основанный на двух основных элементах. Во-первых, мы представляем **Spatial Audio Encoder**, который обрабатывает пространственные аудио-данные. Этот энкодер выявляет несколько параллельных звуковых событий и оценивает их пространственные атрибуты: направление потока звука (Direction of Arrival, DoA) и расстояние до источника. Это делается на каждом кадре, позволяя модели поддерживать динамические сцены. Во-вторых, для обеспечения гибкости модели в распознавании неизвестных звуковых тегов, мы внедрили **Audio Grounding Model**. Этот модуль использует cross-attention механизм для связывания аудио-фичей с семантическими текстовыми описаниями классов, что позволяет модели обрабатывать неизвестные источники звука. Наконец, для расширения модели до работы с динамическими аудио-сценами, мы создали модель, которая обучается на структурированных пространственных атрибутах, полученных с помощью предыдущих моделей, и использует большой языковой модель (LLM) для ответов на сложные запросы. ## Результаты Мы проверили нашу модель на нашем собственном датасете, созданном специально для распознавания движущихся источников звука. Мы сравнили нашу модель с базовой моделью, которая не учитывала пространственные атрибуты и движение источников. Результаты показали, что наша модель существенно избавляется от неточностей, связанных с горизонтальным и вертикальным DoA, а также с расстоянием до источника. Например, наша модель улучшила точность распознавания направление звука на 15% в сравнении с базовой моделью, а точность расчёта расстояния увеличилась на 12%. Мы также проверили нашу модель на задаче
Annotation:
Spatial audio reasoning enables machines to interpret auditory scenes by understanding events and their spatial attributes. In this work, we focus on spatial audio understanding with an emphasis on reasoning about moving sources. First, we introduce a spatial audio encoder that processes spatial audio to detect multiple overlapping events and estimate their spatial attributes, Direction of Arrival (DoA) and source distance, at the frame level. To generalize to unseen events, we incorporate an au...
ID: 2509.14666v1 cs.SD, cs.AI, cs.CL
Авторы:

Duojia Li, Shenghui Lu, Hongchen Pan, Zongyi Zhan, Qingyang Hong, Lin Li

## Контекст В последние годы становится все более актуальным развитие алгоритмов для улучшения звука в реальном времени. Одним из ключевых задач в этой области является сглаживание шума в речевых сигналах, чтобы обеспечить понятность и качество звука. Существующие подходы, основанные на потоках и диффузии, требуют многократного расчета многошаговых обыкновенных дифференциальных уравнений (ODE), что не позволяет их применять в реальном времени. Эта проблема является ограничением для применения подобных моделей в приложениях, требующих немедленного результата, таких как видеокоммуникация и автоматическая синтезированная речь. Данная работа фокусируется на создании модели, которая способна решать эту задачу в одном шаге, устраняя необходимость в многошаговой инференции. ## Метод Методология, предложенная в работе, основывается на подходе, который называется **MeanFlowSE**. Эта модель учится определять среднюю величину потока по временным интервалам, что позволяет выполнять упрощенный генерирующий процесс. Метод использует **Jacobian-vector product (JVP)** для моделирования данного подхода. Архитектура модели разработана таким образом, чтобы она могла делать одношаговый генерирующий процесс, убрав необходимость в многошаговой инференции. Эта модель также включает возможность дополнительного рефинейма с помощью нескольких шагов, если это необходимо. Основной мотивацией здесь является уменьшение затрат за счет устранения многошаговых вычислений. ## Результаты Исследователи проверили свою модель на стандартном тестовом датасете **VoiceBank-DEMAND**. Одиночно-шаговая модель **MeanFlowSE** показала высокую точность, понятность и качество в результатах звукового улучшения. Она также показала значительно нижую вычислительную сложность по сравнению с многошаговыми базовыми моделями. Дополнительно, возможность дополнительного рефинейма с помощью нескольких шагов дала улучшение качества в некоторых сценариях. Этот подход демонстрирует значительную эффективность и может быть использован для реального времени обработки звука. ## Значимость Метод **MeanFlowSE** может быть применен в различных областях, таких как звукозапись, мультимедиа и телекоммуникации. Он предлагает значительное улучшение в скорости работы и качестве результата по сравнению с традиционными многошаговыми подходами. Данный подход также позволяет избежать сложностей, связанных с использованием внешних моделей или киданием весов, что делает его более универсальным. С его помощью можно создавать модели, которые могут использоваться в реальных условиях, без необходимости выполнять многократные расчеты. ## Вы
Annotation:
Multistep inference is a bottleneck for real-time generative speech enhancement because flow- and diffusion-based systems learn an instantaneous velocity field and therefore rely on iterative ordinary differential equation (ODE) solvers. We introduce MeanFlowSE, a conditional generative model that learns the average velocity over finite intervals along a trajectory. Using a Jacobian-vector product (JVP) to instantiate the MeanFlow identity, we derive a local training objective that directly supe...
ID: 2509.14858v1 cs.SD, cs.AI
Авторы:

Kangdi Wang, Zhiyue Wu, Dinghao Zhou, Rui Lin, Junyu Dai, Tao Jiang

## Контекст Музыкальная реконструкция — это важная задача в области обработки звука, направленная на воссоздание высококачественного аудио отсчётов с помощью различных моделей машинного обучения. Одна из лидирующих парадигм в этой области — Variational Autoencoders (VAEs), которые показали свою эффективность в задачах различной сложности, включая диффузионно-ориентированные методы генерации. Однако, существующие модели часто не учитывают аудио-перцептивные аспекты в процессе обучения, что приводит к ухудшению точности фазы и стерео-спациальной репрезентации. Эти недостатки становятся особенно заметными при работе с высокочастотными гармониями и разделением звуков между каналами. Модель **e-ar-VAE** была разработана для решения этих проблем, предлагая новые подходы к обучению и оптимизации VAE для реконструкции музыкальных сигналов. ## Метод Модель **e-ar-VAE** предлагает три основных усовершенствования в обучении VAE для музыкальной реконструкции. Во-первых, **K-weighting perceptual filter** применяется перед расчетом потерь, чтобы выравнивать целевую функцию с перцептивными характеристиками звука. Во-вторых, введены два новых потерь для фазы: **Correlation Loss** для повышения стерео-корреляции и **Phase Loss**, основанный на дифференцированных мердах — **Instantaneous Frequency** и **Group Delay**. Эти потери позволяют увеличить точность фазовой репрезентации. В-третьих, предлагается новый способ спектрального надзора: в многоканальном случае **magnitude** супервайзится всеми четырьмя каналами (**Mid/Side/Left/Right**), в то время как **phase** только двумя (**LR**). Это позволяет улучшить спектральную и стерео-синергию. ## Результаты Эксперименты показали, что **e-ar-VAE** показывает значительно более высокую точность в реконструкции музыкальных сигналов по сравнению с лидирующими моделями. Особенно выдающимися результатами она демонстрирует в области восстановления высокочастотных гармоний и стерео-спациальной структуры. Использованные данные включают различные аудиозаписи, от диапазона частот до 44.1kHz. Вычислительные эксперименты подтвердили, что модель **e-ar-VAE** не только превосходит конкуренты в качестве реконструкции, но и эффективно работает в высокочастотных условиях, где другие модели часто страдают от потерь в точности и спектральной структуре. ## Значимость Результаты **e-ar-VAE** имеют большое значение для нескольких областей применения: - **Музыкальная генерация и реконструкция**: Улучшенное качество сигнала обеспечивает более реалистичные и естественные аудио-опыты. - **Стерео-анализ и анализ звукового спектра**: Более точные фазовые репрезента
Annotation:
Variational Autoencoders (VAEs) are essential for large-scale audio tasks like diffusion-based generation. However, existing open-source models often neglect auditory perceptual aspects during training, leading to weaknesses in phase accuracy and stereophonic spatial representation. To address these challenges, we propose {\epsilon}ar-VAE, an open-source music signal reconstruction model that rethinks and optimizes the VAE training paradigm. Our contributions are threefold: (i) A K-weighting per...
ID: 2509.14912v1 cs.SD, cs.AI
Авторы:

Xiaolei Xu, Chaoyue Niu, Guy J. Brown, Hector Romero, Ning Ma

## Контекст Обструктивная снапноэя (ОСА) — это распространенное заболевание, характеризующееся закрытием воздухопустости в гортани, что приводит к периодам бездыхания и малозначительному воздушному потоку. Это существенно снижает качество жизни, увеличивает риск развития сердечно-сосудистых заболеваний, имеет значительные экономические последствия. Однако, многие пациенты не могут быть подтверждены в диагнозе из-за высокой стоимости и сложности полисомнографии в остром вечерок. Акустическая основная вероятность скрининга представляет себя в качестве более доступного и масштабируемого варианта, но существуют проблемы, такие как экономический шум и отсутствие физиологического контекста. Респираторная усиливающая техника является ключевым сигналом в клинической оценке событий ОСА, но существующие решения требуют дополнительных контактных сенсоров, что уменьшает масштабируемость и комфорт пациента. Настоящая работа представляет первую попытку оценить респираторные усилия непосредственно из ночных аудиозаписей, позволяя восстановить физиологический контекст только с помощью звука. ## Метод Мы предлагаем способ, который интегрирует оценку респираторных усилий с аксиоматическими фичами для детекции ОСА. Метод основывается на латентном пространстве, в котором полученные усилия крепятся к акустическим объектам для повышения сигнала ОСА. Используемый алгоритм расширяет латентное пространство сигналов, используя респираторные усилия, а также акустические характеристики, полученные из звуковых записей. Мы использовали датасет из 157 ночных записей, полученных у 103 участников в домашних условиях. Наш оценщик респираторных усилий показал корреляцию 0.48, подтвердив значительное восстановление динамики респирации. Объединение усилий и акустических признаков повысило точность, чувствительность и AUC по сравнению с аудио-базовыми моделями, особенно при низких пороговых значениях индекса апноэ-гипоапноэ. ## Результаты Работа показала, что оценка респираторных усилий из звуков может быть эффективно использована для диагностики ОСА. Модель показала значительные достижения в сравнении с аудио-базовыми моделями, особенно в условиях низкого индекса апноэ-гипоапноэ. Это демонстрирует возможность использования только аудиоданных для дальнейшего мониторинга ОСА, что возможно благодаря тому, что требуется только смартфон для тестирования. Это снижает необходимость в дополнительных сенсорах, увеличивая масштабируемость и комфорт для пациен
Annotation:
Obstructive sleep apnoea (OSA) is a prevalent condition with significant health consequences, yet many patients remain undiagnosed due to the complexity and cost of over-night polysomnography. Acoustic-based screening provides a scalable alternative, yet performance is limited by environmental noise and the lack of physiological context. Respiratory effort is a key signal used in clinical scoring of OSA events, but current approaches require additional contact sensors that reduce scalability and...
ID: 2509.14944v1 cs.SD, cs.AI, eess.AS
Авторы:

Stelios Katsis, Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos, Giorgos Stamou

#### Контекст Музыка и аудиоконтент широко используются для воздействия на человеческие эмоции, но полное понимание того, как звуковые эффекты (FX) влияют на эмоции, еще не достигнуто. Эти эффекты, такие как реверберация, дисторшн, модуляция и динамический диапазон обработки, широко применяются в музыкальной продукции и стриминге. Несмотря на то, что ранее проводились исследования о звуковых чертах и их влиянии на человеческие эмоции, механизмы, скрытые за этим взаимодействием, остаются неясными. Это исследование обосновывает мотивацию для исследования, как модели фундаментальных архитектур, обученные многомодальной структурой данных, могут открыть новые возможности для изучения этих эффектов. Такие модели позволяют анализировать сложные нелинейные связи между звуковыми эффектами и их эмоциональным воздействием, обеспечивая новый подход к изучению этого вопроса. #### Метод Для изучения взаимосвязи между звуковыми эффектами и эмоциями была использована методология, основанная на пробившемся глубинном обучении. Основным компонентом методологии является применение вариаций звуковых эффектов к аудиозаписям и последующий анализ эмоциональных ответов с помощью моделей фундаментальных архитектур. Циклы обучения и проверки заключались в сравнении предсказаний эмоциональных ответов с реальными данными от пользователей. Архитектура основывалась на сложных трансформациях, включающих добавление вариаций эффектов на звуковые сигналы, а затем расчет измерений эмоций с помощью моделей предсказания. Данные были обработаны с использованием метода пробития, что позволило оценить нелинейные связи между FX и чувственным воздействием. #### Результаты В результате испытаний были изучены широкие вариации звуковых эффектов, включая реверберацию, дисторшн, модуляцию и динамический диапазон обработки. На интерактивных экспериментах были проанализированы ответы пользователей и сравнились с эмоциональными оценками, полученными моделью. Оказалось, что некоторые эффекты, такие как реверберация и модуляция, сильно влияют на чувственность, в то время как другие, такие как динамическая обработка, менее заметны. Результаты показали высокую точность модели в предсказании эмоциональных ответов, особенно при использовании сложных моделей пробивания. В результате были выявлены характерные шаблоны взаимодействия между эффектами и эмоциями. #### Значимость Полученные результаты могут быть применены в различных сферах, включая музыкальную продукцию, восприятие музыки и эффекти
Annotation:
Audio effects (FX) such as reverberation, distortion, modulation, and dynamic range processing play a pivotal role in shaping emotional responses during music listening. While prior studies have examined links between low-level audio features and affective perception, the systematic impact of audio FX on emotion remains underexplored. This work investigates how foundation models - large-scale neural architectures pretrained on multimodal data - can be leveraged to analyze these effects. Such mod...
ID: 2509.15151v1 cs.SD, cs.AI
Авторы:

Chen Si, Qianyi Wu, Chaitanya Amballa, Romit Roy Choudhury

#### Контекст Реалистичное звуковое симулирование играет важную роль во многих приложениях, от виртуальной реальности до аудиоинженерии. Одной из ключевых компонент в этой области является room impulse response (RIR), которая описывает как звук распространяется от источника до слушателя в заданном пространстве. Несмотря на то, что некоторые нейросетевые подходы, основанные на неявных методах, используют контекстную информацию, такую как сценические изображения, они часто недостаточно эффективно используют геометрические характеристики среды. Это способствует недостатку точности в прогнозировании RIR. Наша мотивация заключается в разработке модели, которая более эффективно использует такие искомое пространство. #### Метод Мы предлагаем Mesh-infused Neural Acoustic Field (MiNAF), которая интегрирует нейросетевые неявные модели с явной геометрической информацией, полученной из локальных мешей среды. Каждая точка в среде активирует меш, который возвращает распределение расстояний до стен. Эта явная контекстная информация объединяется с неявными моделями, чтобы улучшить точность генерации RIR. Мы используем архитектуру сети, которая обучается на данных с несколькими зонами пространства, чтобы добиться высокой точности и универсальности. #### Результаты Мы провели эксперименты с разными наборами данных, включая сценические изображения и геометрические признаки. Выяснилось, что MiNAF превосходит современные методы в сравнительных экспериментах по метрикам качества, таким как Signal-to-Noise Ratio (SNR) и Mean Absolute Error (MAE). Наши результаты показывают, что явная геометрическая контекстная информация значительно улучшает точность в генерации RIR, особенно при ограниченных объемах обучающих данных. #### Значимость MiNAF может применяться в различных областях, таких как виртуальная реальность, симуляции аудио-сред, и звуковое моделирование в играх. Она предоставляет несколько преимуществ, включая улучшенную точность, эффективность и универсальность. Этот подход открывает новые возможности для создания более реалистичных звуковых симуляций в различных сценариях. #### Выводы Мы успешно показали, что MiNAF не только превосходит другие существующие методы, но и демонстрирует высокую универсальность и точность в различных условиях. В дальнейших исследованиях мы планируем расширить модель, включив более сложные сцены и звуковые признаки, для еще более реалистичного звукового моделирования.
Annotation:
Realistic sound simulation plays a critical role in many applications. A key element in sound simulation is the room impulse response (RIR), which characterizes how sound propagates from a source to a listener within a given space. Recent studies have applied neural implicit methods to learn RIR using context information collected from the environment, such as scene images. However, these approaches do not effectively leverage explicit geometric information from the environment. To further explo...
ID: 2509.15210v1 cs.SD, cs.AI, cs.LG
Показано 161 - 170 из 274 записей