📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

ShiMing Wang, ZhiHao Du, Yang Xiang, TianYu Zhao, Han Zhao, Qian Chen, XianGang Li, HanJie Guo, ZhenHua Ling

## Контекст Одна из основных проблем в LLM-based Text-to-Speech (TTS) моделях, таких как CosyVoice2, — стабильность произносимости. Эта проблема часто проявляется в виде звуковых репетиций, пропусков или неконсистентных синтезированных звуков. Эти "халлюцинации" в стабильности могут существенно снижать качество произносимого текста, особенно при использовании моделей в реальном времени. Исследователи стремятся найти решения, которые будут улучшать точность и стабильность TTS моделей, особенно в сложных условиях, таких как длинные фразы или специфические языковые конструкции. ## Метод Работа основывается на улучшении и использовании механизма внимания в LLM-based TTS моделях. Авторы предложили новый показатель — Optimal Alignment Score (OAS) — оценивающий уровень текст-голос алгебраического взаимодействия. Эта оценка создана с помощью Viterbi алгоритма, который позволяет анализировать качество синхронизации между текстовыми и аудио токенами. Далее, OAS используется для оптимизации тренировки CosyVoice2, используя метод Chain-of-Thought (CoT), чтобы улучшить непрерывность и стабильность в выдаче модели. Также, предыдущие значения внимания выступают в роли гида для студентской модели CosyVoice2, чтобы уменьшить репитантные или пропущенные звуки. ## Результаты Исследования проводились на Seed-TTS-Eval и CV3-Eval тестовых наборах. Авторы показали, что интеграция OAS и CoT в тренировочный процесс CosyVoice2 позволила существенно уменьшить стабильностные халлюцинации. Эксперименты показали, что модель CosyVoice2 стала более точной в произношении, с меньшим количеством звуковых пропусков и репетиций. Точность и стабильность модели были повышены без привлечения ненужных побочных эффектов, таких как низкая четкость голоса или неестественность произношения. ## Значимость Предложенные решения могут быть применены не только для CosyVoice2, но и для других LLM-based TTS моделей, которые страдают от стабильностных халлюцинаций. Это может оказаться полезным в ситуациях, когда необходимо высокое качество голосового синтеза, например, в трансляциях, играх, интерактивных системах и автоматизированных системах обработки запросов. Этот подход может повысить квалификацию и экономичность TTS моделей, что является ключевым преимуществом для их использования в промышленных приложениях. ## Выводы Авторы успешно устранили проблему стабильностных халлюцинаций в CosyVoice2, используя OAS и CoT. Дальнейшие исследования могут сфокусироваться на улучшении методик OAS для более сложных языковых структур и развитии моделей с ширейшим спектром применения. Эти улучшения могут быть важны для развития ин
Annotation:
This paper focuses on resolving stability hallucinations (e.g., repetitive or omitted speech) in LLM-based Text-to-Speech (TTS) models by improving and leveraging the attention mechanism. First, we analyzed the alignment mechanism between text tokens and speech tokens in LLMs. We then proposed a metric termed the Optimal Alignment Score (OAS), which employs the Viterbi algorithm to evaluate text-speech alignment quality. Subsequently, OAS was integrated into the training of CosyVoice2 to assist ...
ID: 2509.19852v1 cs.SD, cs.AI
Авторы:

Junchuan Zhao, Wei Zeng, Tianle Lyu, Ye Wang

## Контекст Синтез голоса для пения (Singing Voice Synthesis, SVS) является важной задачей в области звуковой инженерии и искусственного интеллекта. Она состоит в том, чтобы создавать экспрессивные вокальные выступления на основе структурированных музыкальных входов, таких как текст и последовательности нот. Несмотря на недавние успехи в области кодирования дискретных звуков для речи, расширение этих технологий для SVS остается задачей, требующей дополнительных исследований. Одна из основных проблем заключается в том, что методы промистого синтеза часто приводят к проблеме "промокания" простора, когда информация о ритме без контроля проникает в синтезированный звук, что нарушает его контролируемость. Для решения этой проблемы, авторы предлагают CoMelSinger — новую модель, ориентированную на точное управление мелодией в синтезированном вокале. ## Метод CoMelSinger основывается на несвязанной модели MaskGCT, которая используется для нейросетевого моделирования звука. В отличие от стандартных текстовых входов, в модель вводятся новые токены, кодирующие слова и тональность пение. Это позволяет сохранить возможность общей обработки в контексте (in-context learning), при этом улучшая контроль над мелодией. Кроме того, авторы предлагают стратегию контрастного обучения, которая помогает избежать проблемы "промокания" простора, регулируя пересечение информации о тонах между акустическим сигналом и звуковыми токенами. Также включена легковесная модель транскрибирования голоса для пения, которая обеспечивает точное управление кадровыми значениями ритма и длительности звука. ## Результаты На тестах сравнения CoMelSinger показала выдающиеся результаты по сравнению с другими моделями. Она демонстрирует более высокую точность по ритму, улучшенную последовательность тонов и более высокую гибкость в нулевых-выстрелах (zero-shot generation). Эксперименты показали, что модель сохраняет высокую точность в синтезированном звуке, даже при переносе на новые данные и варианты задач. Это доказывает силу методов, использованных в CoMelSinger, в обеспечении контролируемого синтеза вокала. ## Значимость Модель CoMelSinger имеет большое потенциальное применение в сферах, требующих высококачественного синтеза голоса для пения, таких как творческое производство музыки, анимация звуков или живые выступления. Важное преимущество лежит в ее возможности создавать звук с точным контролем мелодии, что открывает новые возможности для творческих работ. Будущие исследования могут направляться на улучшение точности генерации и расширение возможностей гибкого управления звуком. ## Выводы CoMelSinger я
Annotation:
Singing Voice Synthesis (SVS) aims to generate expressive vocal performances from structured musical inputs such as lyrics and pitch sequences. While recent progress in discrete codec-based speech synthesis has enabled zero-shot generation via in-context learning, directly extending these techniques to SVS remains non-trivial due to the requirement for precise melody control. In particular, prompt-based generation often introduces prosody leakage, where pitch information is inadvertently entangl...
ID: 2509.19883v1 cs.SD, cs.AI
Авторы:

Rami Zewail

#### Контекст Автоматизация измерения сердечных звуков, таких как сердечные мурлы, является ключевым направлением в современной медицине. Несмотря на развитие глубокого обучения, эта область сталкивается с рядом проблем, в том числе ограниченным количеством тренировочных данных и высокими требованиями к вычислительной мощности современных моделей. Данные проблемы ограничивают применение глубокого обучения в условиях ресурсосложных сред, таких как районы с недостатком квалифицированных клинических работников. #### Метод Для решения этой проблемы предложена новая архитектура Scattering Transformer, основанная на стандартных цепочках волнового сказывания. Модель использует контекстные зависимости звуковых фреймов, аналогично трансформеру, но без необходимости обучения с помощью функции потерь. Этот подход позволяет получить модель, требующую минимальных вычислительных ресурсов и освобождающуюся от зависимости от больших объемов данных. #### Результаты Выполнены эксперименты на публичном наборе данных CirCor DigiScope. Модель Scattering Transformer показала весовую точность (Weighted Accuracy, WAR) в 0.786 и невесовую среднюю точность (Unweighted Average Recall, UAR) в 0.697. Эти результаты достигаются при минимальном потреблении ресурсов, что делает модель высокоэффективной в условиях нехватки вычислительных мощностей. #### Значимость Предложенная модель может быть применена в условиях ресурсосложных систем, таких как сердечная аустуляция в медицинских учреждениях без доступа к высокопроизводительным вычислительным средствам. Она предоставляет высокую точность при очень низком потреблении вычислительных мощностей, что делает ее уникальной в сравнении с традиционными архитектурами. #### Выводы Scattering Transformer демонстрирует высокую эффективность в автоматизации диагностики сердечных мурлы, даже при ограниченных вычислительных ресурсах. Будущие исследования будут ориентированы на расширение модели для диагностики других сердечных аномалий и улучшение ее общих характеристик.
Annotation:
In an attempt to address the need for skilled clinicians in heart sound interpretation, recent research efforts on automating cardiac auscultation have explored deep learning approaches. The majority of these approaches have been based on supervised learning that is always challenged in occasions where training data is limited. More recently, there has been a growing interest in potentials of pre-trained self-supervised audio foundation models for biomedical end tasks. Despite exhibiting promisi...
ID: 2509.18424v1 cs.SD, cs.AI, eess.AS
Авторы:

Changfeng Gao, Yabin Li, Keyu An, Zhifu Gao, Zhihao Du, Han Zhao, Xiangang Li

## Контекст Современные технологии звукового обработки, такие как автоматическое распознавание речи (ASR) и тексто- NAO виде речи (TTS), широко используются в различных областях, от смартфонов до систем самообучающегося анализа. Однако надежность этих систем часто ограничивается качеством данных и ограниченными моделями. Большие языковые модели (LLMs) получили много годы широкого применения в области текстовых задач, однако их применение к ASR и TTS остается нерегулярным и требует повышения качества. Реинфорсмент-обучение (RL) доказало свою эффективность в текстовых задачах, но его применение к ASR и TTS остается относительно не изученным. Это связано с тем, что тренировка систем аудио-сигналов требует больших ресурсов и тестовых данных, что затрудняет применение RL в этих областях. Цель данного исследования — разработать легковесный RL-фреймворк для обработки аудиосигналов, который может улучшить ASR и TTS системы, даже при ограниченных ресурсах. ## Метод Предлагаемый RL-фреймворк основывается на Group Relative Policy Optimization (GRPO) и ориентируется на данные, полученные из аудиосигналов. Метод GRPO основывается на групповом сравнении, что позволяет улучшить точность взаимодействия модели с аудиоданными. Были разработаны разные варианты правил для подачи награды в зависимости от результатов ASR и TTS. Для TTS, была введена Diffrentiable Reward Optimization (DiffRO), которая позволяет настроить награды через градиентное спусковое методирование. Архитектура RL-фреймворка включает в себя нейронные сети, обученные на аудиоданных, где модель взаимодействует с данными, изменяя поведение в зависимости от награды. Эта модель используется как для ASR, так и для TTS, что позволяет исследовать качество речи и генерацию речи в разных условиях. ## Результаты Исследования проводились на наборах данных ASR и TTS, где были проведены эксперименты с разными наградами в GRPO и DiffRO. Исследование показало, что RL может улучшить качество ASR и TTS, даже при ограниченных ресурсах. В ASR, награда, основанная на правилах, позволила распознавать речь с более высокой точностью, чем без RL. В TTS, гибкость DiffRO позволила значительно улучшить соответствие генерируемого звука исходному тексту. Комбинация GRPO и DiffRO дала лучший результат в объединенных экспериментах, повысив качество и превратившая RL в мощный инструмент для улучшения ASR и TTS. ## Значимость Результаты данного исследования могут быть применены в различных областях, где требуется эффективное распознавание речи и генерация речи. Это включает в себя системы самообучающегося перевода, синтеза речи в системах помощи и системы распознавания речи в смартфонах. RL позволяет повысить точност
Annotation:
In recent years, large language models (LLMs) have played an important role in automatic speech recognition (ASR) and text-to-speech (TTS) systems. While reinforcement learning (RL) has significantly enhanced LLM performance in text-based tasks, its application to ASR and TTS remains underexplored due to the complexity of training audio-based models. In this study, we propose a lightweight RL framework tailored for audio-based LLMs that can process audio inputs and generate audio outputs. Based ...
ID: 2509.18569v1 cs.SD, cs.AI, eess.AS
Авторы:

Sarthak Yadav, Sergios Theodoridis, Zheng-Hua Tan

#### Контекст Нейронные сети становятся все более важной частью машинного обучения, особенно для обработки аудиоданных. Одна из задач, которая привлекла внимание, — это обучение от неоркестрованных данных (self-supervised learning), когда модель выучивает семантически значимые представления без использования меток. Маскированное моделирование спектрограмм (masked spectrogram modeling) является одним из таких подходов, где модель предсказывает отсутствующие части аудиоспектрограммы, чтобы получить контекстуемые представления. Этот подход, основанный на трансформерной архитектуре, стал ключевым для создания основных моделей аудио (audio foundation models). Однако недавно возросло интерес к повторному осмыслению последовательностного моделирования посредством состояний состояния состояния (state-space models) и продвинутых вариантах LSTM (например, xLSTM). Настоящая статья стремится предоставить подробный обзор этих тем и разработать основу для сравнения методов. #### Метод Мы рассматриваем две основные методологии: моделирование масок спектрограмм и расширенные подходы к последовательному моделированию (например, Mamba и xLSTM). Для сравнения мы используем обучение с маскированной спектрограммой, где некоторые части аудиоданных скрываются, и модель должна их восстановить. Мы применяем обученные модели к 10 различным задачам классификации аудио, при этом оцениваем их качество и рентабельность. Мы также проводим сравнения между трансформером, Mamba и xLSTM, чтобы определить их сильные и слабые стороны. #### Результаты Мы провели эксперименты на десяти различных задачах классификации аудио, включая распознавание речи, музыки и звуков окружения. Модели, основанные на трансформерах, показали высокую точность, особенно при работе с большими объемами данных. Однако Mamba и xLSTM показали более эффективность в обработке длинных последовательностей, снизив нагрузку на вычисления. Наши результаты показывают, что Mamba и xLSTM лучше подходят для задач, где нужно обрабатывать длинные аудиопотоки, в то время как трансформеры более эффективны для кратких входных сигналов. #### Значимость Наша работа имеет значительное значение для развития обучения с подкреплением без меток в аудиоданных. Мы предоставляем инструментарий для сравнения различных подходов, что позволяет выбрать решение, наиболее подходящее для конкретной задачи. Наши результаты могут быть полезны для разработчиков моделей, которые ищут эффективные способы обработки аудиоданных. Мы также открываем возможности для будущих исследований в области состояния состояния состояния и последовательных моделей для аудиоданных. #### Выводы Мы пред
Annotation:
In recent years, self-supervised learning has amassed significant interest for training deep neural representations without labeled data. One such self-supervised learning approach is masked spectrogram modeling, where the objective is to learn semantically rich contextual representations by predicting removed or hidden portions of the input audio spectrogram. With the Transformer neural architecture at its core, masked spectrogram modeling has emerged as the prominent approach for learning gene...
ID: 2509.18691v1 cs.SD, cs.AI, eess.AS
Авторы:

Karen Rosero, Eunjung Yeo, David R. Mortensen, Cortney Van't Slot, Rami R. Hallac, Carlos Busso

## Контекст Область исследования генерируемой речи, особенно в сфере медицины, набирает все большую популярность. Многие методы фокусируются на звуковых и правописаных ошибках, которые могут возникать у детей с языковыми расстройствами. Однако существуют лишь немногие решения, которые сочетают безупречную звуковую реконструкцию с сохранением идентичности речи. Такая проблема особенно актуальна для детей с звуковыми расстройствами (SSD), которые требуют индивидуального подхода в клинической практике. Эта статья предлагает ChiReSSD — уникальную систему, которая не только корректурует звуковую речь, но и сохраняет идентичность речи ребенка. ## Метод ChiReSSD — это расширенная модель стилевой генерируемой речи (TTS), которая нацелена на корректуру звуков у детей с SSD. Она использует два основных блока: фаза анализа и фаза реконструкции. В первой фазе анализируется голос ребенка с использованием методов питания вперед и обучения классификатора. Во второй фазе эта информация используется для генерирования звукового сигнала, который сохраняет идентичность речи ребенка, но исправляет звуковые ошибки. Модель учится с помощью нейронных сетей, которые обучаются на большом объеме данных, включая голоса детей с SSD. ## Результаты Для оценки ChiReSSD была использована база данных STAR, содержащая записи голосов детей с SSD. Эксперименты показали, что модель существенно повысила лексическую точность и сохранила идентичность речи ребенка. Также был проведен автоматический предиктивный анализ, в котором модель сравнительно точно определяла звуки и консонанты в исходных и реконструированных записях. На данных TORGO была проверена общеупотребительность модели на взрослых с дисартической речью, и результаты также проявили высокую точность. ## Значимость ChiReSSD предлагает широкие приложения в клинической практике, в том числе в диагностике и лечении звуковых расстройств. Она может существенно снизить трудозатраты для медицинских экспертов, автоматизируя процесс анализа и корректуры речи. Более того, модель эффективно работает не только с детскими голосами, но и с взрослыми, что увеличивает ее полезность в разнообразных клинических ситуациях. ## Выводы Результаты экспериментов показывают, что ChiReSSD является эффективным инструментом для корректуры звуков и сохранения идентичности речи. Будущие исследования будут сфокусированы на расширении баз данных и улучшении модели для различных клинических задач. Это может привести к радикальному улучшению клинического анализа речи и уменьшению трудозатрат для эксп
Annotation:
We present ChiReSSD, a speech reconstruction framework that preserves children speaker's identity while suppressing mispronunciations. Unlike prior approaches trained on healthy adult speech, ChiReSSD adapts to the voices of children with speech sound disorders (SSD), with particular emphasis on pitch and prosody. We evaluate our method on the STAR dataset and report substantial improvements in lexical accuracy and speaker identity preservation. Furthermore, we automatically predict the phonetic...
ID: 2509.19231v1 cs.SD, cs.AI, cs.CL
Авторы:

Hyun Jun Kim, Hyeong Yong Choi, Changwon Lim

################################################# ## Контекст ################################################# В данной работе представлена система AISTAT, разработанная для решения задачи 6 (Language-based audio retrieval) в рамках DCASE 2025. Целью исследования является развитие эффективных методов для поиска аудиофайлов с помощью языковых запросов. Эта проблема играет важную роль в области обработки звука, так как поиск аудио по текстовому описанию широко применяется в сферах, таких как запросы пользователей, управление домашними устройствами и мобильные приложения. Несмотря на прогресс в области компьютерного зрения и машинного обучения, аудио-текстовый поиск остается вызовом из-за сложности извлечения семантических признаков из звуковых сигналов. Существующие решения часто страдают от недостатка точности или универсальности. Таким образом, целью настоящей работы является развитие универсальной системы, обеспечивающей высокую точность и широкую применимость для решения этой задачи. ################################################# ## Метод ################################################# Разработанная система основывается на двухэнкодерной архитектуре, где аудио и текст обрабатываются независимо друг от друга, а их представления выравниваются с использованием контрастного обучения. За основу архитектуры взята модель Dual Encoder. Для повышения качества их алгоритмы дистилляции использовались для передачи знаний из крупных языковых моделей (LLMs). Затем, для расширения данных использовались техники, такие как back-translation и LLM mix. Для улучшения точности кластеризация реализована в качестве классификационной задачи, которая вводит дополнительную тонкую настройку. Обучение производилось с использованием Clotho development test split. Наилучшая модель (в одиночном варианте) показала mAP@16 равное 46.62, а консенсусный подход из четырех моделей достиг mAP@16 в 48.83. ################################################# ## Результаты ################################################# Система была оценена на Clotho development test split. Лучшая модель в одиночном варианте показала mAP@16 (mean average precision at 16) в размере 46.62. Консенсусный подход, включавший четыре модели, достиг mAP@16 в размере 48.83. Эти результаты показывают, что система AISTAT выдает высокую точность в предсказании аудиофайлов по текстовым запросам. Также был проведен сравнительный анализ с другими моделями, включая конкурентные решения, что подтвердило преимущества данного подхода в ситуациях, требующих высокой точности поиска звуковых файлов. ################################################# ## Значимость ################################################# Разработанная система AISTAT может быть применена в разных областях, где требуется автоматическое поисковое решение с помощью текстовых запросов. Например, это могут быть приложения для поиска музыки, управление домашними устройствами при помощи голосовых команд, а также мобильные приложения для поиска аудиоконтента. Система
Annotation:
This report presents the AISTAT team's submission to the language-based audio retrieval task in DCASE 2025 Task 6. Our proposed system employs dual encoder architecture, where audio and text modalities are encoded separately, and their representations are aligned using contrastive learning. Drawing inspiration from methodologies of the previous year's challenge, we implemented a distillation approach and leveraged large language models (LLMs) for effective data augmentation techniques, including...
ID: 2509.16649v1 cs.SD, cs.AI, eess.AS
Авторы:

Eunjin Choi, Hyerin Kim, Jiwoo Ryu, Juhan Nam, Dasaem Jeong

## Контекст Lakh MIDI Dataset (LMD) является одним из крупнейших общедоступных источников символической музыки. Он содержит более 178 тысяч файлов MIDI, представляющих различные музыкальные произведения. Несмотря на преимущества, такие большие данные часто склеиваются из разных источников, что приводит к повторениям и непоследовательностям в метаданных. Эти ошибки могут повлиять на качество обучения моделей и формирования выводов в музыкальной интеллектуальной обработке (MIR). Однако, несмотря на важность, дедупликация данных в MIR-сообществе недостаточно исследована. Этот труд вносит вклад в решение проблемы, обосновывая значимость дедупликации LMD для улучшения высококачественных моделей в этой области. ## Метод Для анализа и дедупликации LMD использовались различные подходы. В качестве бенчмарка выбран Clean MIDI Subset, в котором одинаковые песни представлены в разных версиях. Методы включили правильные (rule-based), символьные модели музыкального восприятия, а также модель BERT с увеличенным обучением (contrastive learning). Модель BERT была использована для параллельной обработки файлов MIDI и поиска дубликатов. Результаты сравнивались с другими моделями, чтобы определить наиболее эффективный подход к дедупликации LMD. ## Результаты На основе проведенных экспериментов были получены три версии отфильтрованного списка LMD. Наиболее консервативная версия отфильтровала 38 134 менее стабильных дубликатов из 178 561 файлов. Эти результаты позволили установить, что модель BERT с увеличенным обучением и аугментациями демонстрирует наилучшие результаты в дедупликации символических музыкальных данных. Этот подход оказался самым эффективным в контексте удаления повторяющихся файлов, с минимальным потерям качества или удалением ненужных данных. ## Значимость Результаты имеют значительное значение для области MIR и других крупных датасетов, которые могут повлиять на обучение моделей. Дедупликация LMD позволяет улучшить точность и надежность моделей, уменьшая влияние данных, зараженных дубликатами. Это прикладное решение может иметь большой потенциал в музыкальном анализе, генерации и машинном обучении. Будущие исследования могут расширить данные в других символических музыкальных коллекциях. ## Выводы Полученные результаты показывают, что модель BERT с увеличенным обучением является эффективным методом для дедупликации LMD. Она позволяет улучшить качество данных и разработать более надежные модели в MIR. Дальнейшие исследования могут сфокусироваться на масштабировании этого подхода для других больших датасетов и изучении других аспектов дедупликации в символической му
Annotation:
A large-scale dataset is essential for training a well-generalized deep-learning model. Most such datasets are collected via scraping from various internet sources, inevitably introducing duplicated data. In the symbolic music domain, these duplicates often come from multiple user arrangements and metadata changes after simple editing. However, despite critical issues such as unreliable training evaluation from data leakage during random splitting, dataset duplication has not been extensively ad...
ID: 2509.16662v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS
Авторы:

Tianheng Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng

#### Контекст Говорящие головы, реагирующие на аудио, являются ключевым элементом в области виртуальной реальности, цифровых аватаров и производства фильмов. Существующие подходы, основанные на NeRF (Neural Radiance Fields), обеспечивают высокую точность в реконструкции, но страдают от низкой эффективности обработки и недостаточной синхронизации аудио-визуальных сигналов. Эти ограничения затрудняют применение таких технологий в реальном времени. Мотивация для разработки PGSTalker заключается в создании метода, который обеспечивает высокую точность в реальном времени, гибкость в управлении деталями и эффективность процесса рендеринга. #### Метод PGSTalker основывается на 3D Gaussian Splatting (3DGS), который позволяет эффективно строить 3D-репрезентации. Метод включает два основных компонента: **процедуру подстройки плотности точек в зависимости от пиксельного контекста** (pixel-aware density control) и **модуль мультимодальной связующей свертки** (Multimodal Gated Fusion Module). Первый компонент улучшает детализацию в динамических областях, таких как губы, а второй модулем обеспечивает более точное предсказание деформаций Гауссовских полей в зависимости от аудио. Эта архитектура позволяет достичь высокой синхронизации и эффективности в обработке. #### Результаты Исследования проводились на популярных аудио-визуальных датасетах. Обучение PGSTalker производилось с использованием тренировочных данных, включающих аудио и видео сигналы. Метод был сравнивался с тремя современными подходами по таким критериям, как рендеринг качества, точность лип-синка (lip-sync) и скорость обработки. Результаты показали, что PGSTalker превосходит существующие подходы во всех этих аспектах. Например, он оказался лучшим в точности лип-синка, достигая 98.5%, и обеспечивал быстрейшую скорость рендеринга среди экспериментальных моделей. #### Значимость Предложенный подход имеет широкие возможности применения в виртуальной реальности, где необходим реального времени аудио-движение головы, в производстве видео и дизайне цифровых аватаров. Одним из основных преимуществ является высокая эффективность рендеринга, которая позволяет использовать PGSTalker на устройствах с ограниченными ресурсами. Благодаря своей гибкости и точности, PGSTalker может стать ключевым инструментом в развитии цифровых технологий, способствуя улучшению качества виртуальных интерфейсов. #### Выводы PGSTalker достигает высокого качества рендеринга, точного лип-синка и быстрой обработки, превосходя существующие подходы. Он может быть примен
Annotation:
Audio-driven talking head generation is crucial for applications in virtual reality, digital avatars, and film production. While NeRF-based methods enable high-fidelity reconstruction, they suffer from low rendering efficiency and suboptimal audio-visual synchronization. This work presents PGSTalker, a real-time audio-driven talking head synthesis framework based on 3D Gaussian Splatting (3DGS). To improve rendering performance, we propose a pixel-aware density control strategy that adaptively a...
ID: 2509.16922v1 cs.SD, cs.AI, eess.IV
Авторы:

Ragib Amin Nihal, Benjamin Yen, Takeshi Ashizawa, Kazuhiro Nakadai

## Контекст **Multi-channel audio alignment** является важной задачей в области биоакустического мониторинга, пространственной аудиосистемы и акустической локализации. Однако существующие методы часто сталкиваются с проблемами, такими как **nonlinear clock drift** (нелинейное смещение часов) и невозможность оценивать **uncertainty** (неопределенность). Традиционные методы, такие как **cross-correlation** и **Dynamic Time Warping (DTW)**, предполагают простые шаблоны смещения и не предоставляют меры надежности. Несмотря на то, что **deep learning models** позволяют находить более точные решения, они в основном рассматривают задачу синхронизации как **binary classification task** (задачу бинарной классификации), не учитывая зависимости между каналами и неопределенность решений. Мы предлагаем **Cross-Attention with Confidence Weighting**, метод, который объединяет **cross-attention mechanisms** и **confidence-weighted scoring** для улучшения многоканальной синхронизации аудио. Это решение позволяет улучшить точность и надежность синхронизации в различных критически важных приложениях. ## Метод Мы расширили **BEATs encoders** (BEATs - Bidirectional Encoder Attention Transformer), добавив **cross-attention layers** для моделирования взаимосвязей между каналами. Эти слои позволяют учитывать характеристики и хронологические зависимости данных. Далее, мы разработали **confidence-weighted scoring function**, которая использует **full prediction distribution** (полное распределение предсказаний) вместо бинарного трешхолда. Эта функция позволяет оценивать **uncertainty** и принимать во внимание все возможные результаты. Наша реализация использует **probabilistic temporal alignment** (пробабилистическую временную синхронизацию), устраняя необходимость в чистом точном решении и предоставляя **confidence scores** (оценки надежности). Эта модель позволяет решать задачи синхронизации в рамках биоакустических приложений, но также может быть применена к другим задачам многоканальной аудиосинхронизации, где надежность и уверенность в результатах критически важны. ## Результаты Мы проверили нашу модель на различных датасетах, включая **ARU** и **zebra finch**. На **ARU dataset**, наш метод показал **0.14 Mean Squared Error (MSE)**, что составляет **77%** снижения по сравнению с базовым глубокому обучению (**deep learning baseline**), который показал **0.58 MSE**. На датасете **zebra finch** наш результат составил **0.45 MSE**, что составляет **18%** снижения по сравнению с базовым результатом. На **BioDCASE 2025 Task 1 challenge**, наша модель получила **0.30 MSE**, что является **наилучшим результатом** среди участников. Эти результаты демонстрируют высокую точность и надежность нашего подхода в синхронизации многоканального аудио. Мы также продемонстрировали, что наш метод позволяет улучшить **probabilistic temporal alignment**, что делает его применимым в ситуациях, где требуется уверенность в результатах. ## Значимость Наш метод может применяться в **bioacoustic
Annotation:
Multi-channel audio alignment is a key requirement in bioacoustic monitoring, spatial audio systems, and acoustic localization. However, existing methods often struggle to address nonlinear clock drift and lack mechanisms for quantifying uncertainty. Traditional methods like Cross-correlation and Dynamic Time Warping assume simple drift patterns and provide no reliability measures. Meanwhile, recent deep learning models typically treat alignment as a binary classification task, overlooking inter...
ID: 2509.16926v1 cs.SD, cs.AI, cs.LG, eess.AS
Показано 141 - 150 из 274 записей