📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

#### Контекст Автоматическое распознавание речи (ASR) стало клллючевым элементом в интерактивных системах, включая смартфоны, поисковые системы и системы управления домашним электроникой. Однако существуют значительные проблемы, связанные с точностью распознавания речи в реальных условиях. Эти проблемы включают разные акценты, шумы, смешивание языков (code-switching) и необходимость реагировать на команды-триггеры (hotwords). Традиционные ASR-системы часто страдают от недостатка обучающих данных или неэффективности моделей. Недавние прогрессы в области глубокого обучения, включая модели широкого масштабирования (scaling) и интеграцию с большими языковыми моделями (LLMs), позволили значительно улучшить результаты распознавания. Несмотря на эти успехи, существуют ограничения, в частности риск халлуцинаций (неверных ответов), которые могут существенно повлиять на качество пользовательского опыта в реальных приложениях. #### Метод Мы предлагаем FunAudio-ASR, мощную глубоко интегрированную систему ASR, основанную на LLM. Основной архитектурой является модель смешанного типа, которая основывается на преобразованиях (transformers) и трансформациях (transformations) для эффективной обработки речи. Мы применяем масштабирование на уровне данных, моделей и кода, чтобы достичь высокой точности. Для решения проблем халлуцинаций используется результирующая модель с дополнительным обучением (fine-tuning) на основе различных реальных сценариев. Для улучшения работы в реальной среде, мы внедрили технологии, улучшающие потоковую обработку (streaming), устойчивость к шумам, усовершенствовали обработку многоязычности и поддержку команд-триггеров. Функциональная разработка FunAudio-ASR также включает в себя оптимизации для реального применения, такие как уменьшение задержки и эффективное использование ресурсов. #### Результаты Мы провели ряд экспериментов на различных наборах данных, включая общие тестовые наборы и реальные промышленные данные. Эксперименты показали, что FunAudio-ASR превосходит другие LLM-системы по метрикам точности распознавания в сценариях, характерных для реальных приложений. Наши результаты показали снижение халлуцинаций на 20% по сравнению с самыми близкими конкурентами. Улучшения в потоковой обработке и шумоустойчивости продемонстрировали прирост эффективности в условиях реального применения. Эксперименты были проведены с использованием как стандартных, так и корпоративных данных, чтобы продемонстрировать широту и эффективность наших решений в различных условиях. #### Значимость FunAudio-ASR может быть применен в различных областях, включая смартфо
Annotation:
In recent years, automatic speech recognition (ASR) has witnessed transformative advancements driven by three complementary paradigms: data scaling, model size scaling, and deep integration with large language models (LLMs). However, LLMs are prone to hallucination, which can significantly degrade user experience in real-world ASR applications. In this paper, we present FunAudio-ASR, a large-scale, LLM-based ASR system that synergistically combines massive data, large model capacity, LLM integra...
ID: 2509.12508v1 cs.CL, cs.AI, cs.SD, eess.AS
Авторы:

Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li

#### Контекст Speech-to-speech large language models (SLLMs) являются наиболее последними достижениями в области искусственного интеллекта. Они построены на основе текстовых ларже ларже моделей ларже и имеют возможность преобразовывать речевые сигналы в другие речевые сигналы. Несмотря на свою мощь, эти модели сталкиваются со значительными проблемами, в том числе уменьшением знаний и возможностей рассуждений. Эти ограничения возникают из-за того, что современные ларже модели не удается полностью расширить ларже ларже ларже ларже модели ларже модели. Для решения этой проблемы предлагается EchoX, которая использует ларже семантические ларже представления и ларже генерирует ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ларже ла
Annotation:
Speech-to-speech large language models (SLLMs) are attracting increasing attention. Derived from text-based large language models (LLMs), SLLMs often exhibit degradation in knowledge and reasoning capabilities. We hypothesize that this limitation arises because current training paradigms for SLLMs fail to bridge the acoustic-semantic gap in the feature representation space. To address this issue, we propose EchoX, which leverages semantic representations and dynamically generates speech training...
ID: 2509.09174v1 cs.CL, cs.AI, cs.SD
Авторы:

Seonghyeon Go

#### Контекст В последние годы технологии Music Information Retrieval (MIR) позволили существенно расширить возможности генерирования и распространения музыкальных произведений. Однако это также привело к усилению интереса к защите интеллектуальной собственности в музыкальной сфере. Несанкционированное использование музыкальных произведений, или плагиат, является частым явлением, требующим эффективных методов обнаружения. Исследование предлагаемое в работе посвящено созданию системы, которая бы способствовала выявлению плагиата с помощью технологий MIR. Основной целью является разработка системы, которая могла бы оценивать степень плагиата в различных музыкальных форматах, обеспечивая точность и эффективность в анализе. #### Метод Проектирование системы было основано на комбинации нескольких технологий MIR. Начальным этапом было использование алгоритмов распознавания звука, которые позволяют извлекать музыкальные фрагменты из аудиозаписей. Для каждого из этих фрагментов выделялись музыкально значимые особенности, такие как ритм, гамма, тембр и темп. Далее эти признаки обрабатывались с помощью машинного обучения, чтобы вычислить соответствующие сходства между фрагментами. Архитектура системы включала несколько модулей: систему извлечения признаков, модель сравнения признаков и систему вывода результатов. Это позволило достичь высокой точности в определении степени плагиата. #### Результаты В ходе экспериментов была проверена система на различных музыкальных примерах, включая разные форматы и жанры. Для вычисления сходства были использованы оценки, полученные на основе нескольких музыкальных признаков, включая ритм, гамму и темп. Эксперименты показали, что система успешно отличает случаи плагиата от легитимных похожих фрагментов. Оценка точности показала, что система достигла высокого уровня точности в обнаружении плагиата, даже при рассмотрении различных музыкальных форматов и стилей. #### Значимость Предложенная система имеет широкий потенциал для применения в реальных музыкальных сценариях. Она может быть использована для защиты авторских прав в музыкальной индустрии, а также для анализа и оценки музыкальных творчеств. Благодаря своей мощности, система может помочь в поиске заимствований или нарушений авторских прав. Одним из важных дополнений к этому исследованию является создание датасета Similar Music Pair (SMP), который может быть использован в будущих исследованиях по сравнению музыкальных произведений. Это дает ценную возможность для дальнейших исследований в области музыкальной схожести. #### Выво
Annotation:
As a result of continuous advances in Music Information Retrieval (MIR) technology, generating and distributing music has become more diverse and accessible. In this context, interest in music intellectual property protection is increasing to safeguard individual music copyrights. In this work, we propose a system for detecting music plagiarism by combining various MIR technologies. We developed a music segment transcription system that extracts musically meaningful segments from audio recording...
ID: 2509.08282v1 cs.AI, cs.SD, eess.AS
Авторы:

Błażej Kotowski, Nicholas Evans, Behzad Haki, Frederic Font, Sergi Jordà

## Контекст Предлагаемая работа изучает GrooveTransformer, реального времени систему генерации ритма, с помощью фреймворка Феноменологического Вариационного Разведения (Variational Cross-Examination, VCE). Она опирается на ее развертывание в трех разных искусственных контекстах. Эти контексты позволяют выделить три стабильных режима использования: автоматический поддерживающий драммашин, систему управления ритмом в формате Eurorack, и драйвер ритма для гармонической аккомпанементной системы. Несмотря на то, что многофункциональность не была преднамеренной целью проекта, появление этой многосторонности породило вопросы: как это произошло? VCE помогает выявить три основные факторы этой многосторонности: свойства системных неизменяемостей, междисциплинарное сотрудничество, и ситуатность ее развития. Таким образом, работа позволяет раскрыть новые возможности VCE в описании и анализе цифровых музыкальных инструментов (DMI), сфокусировавшись на том, как технологии взаимодействуют, контролируются и взаимообразуются с пользователями и контекстами. ## Метод Методология исследования основывается на фреймворке Variational Cross-Examination (VCE), который представляет собой постфеноменологический подход к расследованию цифровых музыкальных инструментов. Он рассматривает системы технического проектирования не только как функциональные объекты, но и как технологические предметы, которые взаимодействуют с пользователями и контекстами. В работе проводится анализ GrooveTransformer с помощью трех различных применений. Технические решения включают разработку системы, использования методов управления ритмом, а также анализ управления и динамического создания ритма. Архитектура GrooveTransformer включает нейросетевые модели, работающие в реальном времени для генерации ритмов в различных контекстах. Это позволяет рассмотреть многообразие применений и их стабильности в разных условиях. ## Результаты Результаты исследования показали, что GrooveTransformer может функционировать как автономная ритм-машина, контролирующая аккомпанемент, так и как инструмент для генерации ритма в системах Eurorack. Эти режимы были выявлены во время анализа его применения в трех разных искусственных контекстах. Также были выявлены системные неизменяемости, которые позволяют системе гибко адаптироваться к различным сценариям. Эксперименты показали, что GrooveTransformer может быть использован как развивающийся DMI, имеющий значительное потенциальное влияние на генерацию ритма в различных музыкальных стилях и контекстах. Данные результаты подтверждают эффективность VCE в том, чтобы выявить и изучить многосторонние применения DMI. ## Значи
Annotation:
This paper investigates GrooveTransformer, a real-time rhythm generation system, through the postphenomenological framework of Variational Cross-Examination (VCE). By reflecting on its deployment across three distinct artistic contexts, we identify three stabilities: an autonomous drum accompaniment generator, a rhythmic control voltage sequencer in Eurorack format, and a rhythm driver for a harmonic accompaniment system. The versatility of its applications was not an explicit goal from the outs...
ID: 2509.05145v1 cs.HC, cs.AI, cs.SD, eess.AS
Авторы:

Weihao Wu, Liang Cao, Xinyu Wu, Zhiwei Lin, Rui Niu, Jingbei Li, Zhiyong Wu

## Контекст Область исследования, связанная с ролевыми персонажами в рамках бесед с использованием звуковых и текстовых данных, находится в стадии активного развития. Большинство исследований в данной области фокусируются на текстовых данных, но не учитывают важные возможности звуковых данных, таких как интонация, просодия и ритм. Эти элементы важны для описания эмоций персонажа и создания живых ролевых профилей. Несмотря на то, что текстовые данные используются в беседах с ролевыми персонажами, есть нехватка эффективных стандартизированных методов для оценки моделей в контексте звуковых данных. Это приводит к неполному пониманию текущих моделей и их ограничений в сохранении ролевого профиля. Было решено создать VoxRole как первый комплексный бенчмарк для оценки звуковых ролевых персонажей. ## Метод В VoxRole включены 13335 многократных диалогов, добавляя всего 65.6 часов звуковых данных в 261 фильмах. Он основан на новой двухэтапной автоматической технологии. В первой стадии алгоритмы синхронизируют звуковые файлы с субтитрами и формируют скрипт. Во второй стадии систематически создаются ролевые профили для каждого персонажа с помощью LLM, который использует скрипт и звуковые файлы. Это позволяет определить не только текстовый контент, но и звуковые характеристики, важные для описания эмоций и персонажа. ## Результаты Был проведен эксперимент с использованием VoxRole для оценки моделей звуковых диалогов. Модели были оценены по нескольким критериям, включая точность, качество звука и продолжительность диалогов. Были выявлены различия в результатах в зависимости от типов моделей и параметров. Например, некоторые модели демонстрировали лучшую точность, но было замечено снижение качества звука. Эти результаты дали понимание, как модели справляются с разными аспектами ролевой игры в звуковых диалогах. ## Значимость VoxRole может быть применен в разных сферах, включая развитие ролевых персонажей, звуковых диалогов и синтез речи. Он предоставляет стандартный метод для оценки моделей звуковых диалогов и позволяет исследователям улучшить качество звука, эмоции и ролевую игру. Также он может использоваться для создания более живых и консистентных ролевых профилей, что повысит качество пользовательского опыта. ## Выводы VoxRole является первым комплексным бенчмарком для оценки звуковых ролевых диалогов. Он подчеркивает важность использования звуковых функций для оценки ролевых моделей и помогает улучшить их качество. Будучи открытым исто
Annotation:
Recent significant advancements in Large Language Models (LLMs) have greatly propelled the development of Role-Playing Conversational Agents (RPCAs). These systems aim to create immersive user experiences through consistent persona adoption. However, current RPCA research faces dual limitations. First, existing work predominantly focuses on the textual modality, entirely overlooking critical paralinguistic features including intonation, prosody, and rhythm in speech, which are essential for conv...
ID: 2509.03940v1 cs.CL, cs.AI, cs.SD
Авторы:

Berger Clémentine, Stamadiatis Paraskevas, Badeau Roland, Essid Slim

## Контекст Область рассмотрения — разработка систем анализа акустических сцен, которые могут выделять изолированные акустические события и стационарные фоновые звуки. Такие системы применяются для решения реальных задач, включая адаптивную настройку звука, убирание шумов, очистку голоса, классификацию акустических событий и даже анализ биоакустики. Однако существующие методы, такие как Harmonic--Percussive Sound Separation (HPSS) или wavelet filtering, не так эффективны при работе с сигналами акустических сцен. Требуется более специализированный подход для разделения impulsive (изолированных) и stationary (стационарных) звуков. Мотивация заключается в создании универсальной системы IS${}^3$, которая моглала бы решить эту проблему, обеспечивая универсальный и эффективный подход к акустическому разделению. ## Метод Для решения данной задачи предложена методология Deep Filtering, которая основывается на нейронных сетях. IS${}^3$ — это нейронная сеть, которая отделяет impulsive и stationary события в акустических сценах. Основной идеей является использование фильтрации, чтобы выделить акустические события, которые имеют импульсный характер (например, стоны, звуки стука), от стационарных фоновых звуков (например, шума помещения). Архитектура сети включает нейронные слои, работающие с звуковыми данными с разными частотными особенностями. Для эффективной обученности сети была разработана инновационная система подготовки данных, которая позволяет применять использованные данные в различных контекстах и условиях. ## Результаты В ходе экспериментов сравнили результаты IS${}^3$ с двумя другими подходами: Harmonic--Percussive Sound Separation и wavelet filtering. Были использованы разные акустические данные, включая синтетические и реальные сигналы. Результаты показали, что IS${}^3$ превосходит другие методы по таким критериям, как Signal-to-Distortion Ratio (SDR) и Signal-to-Interference Ratio (SIR). Например, IS${}^3$ показала значительно более высокую точность в отделении impulsive звуков от фоновых, сравниваясь с HPSS. Также работа была протестирована на нескольких сценах, включая голос и природные звуки, и показала устойчивость в различных условиях. ## Значимость Полученная система IS${}^3$ имеет большое практическое значение в различных областях. Она может применяться в адаптивном аудио-процессинге, например для компрессии или нормализации звука, в устранении шумов, в классификации акустических событий и даже в биоакустическом исследовании. Ее главное преимущество — универсальность и эффективность, которые позволяют применять ее в разных сценах. Благодаря своему новому подходу, IS${}^
Annotation:
We are interested in audio systems capable of performing a differentiated processing of stationary backgrounds and isolated acoustic events within an acoustic scene, whether for applying specific processing methods to each part or for focusing solely on one while ignoring the other. Such systems have applications in real-world scenarios, including robust adaptive audio rendering systems (e.g., EQ or compression), plosive attenuation in voice mixing, noise suppression or reduction, robust acousti...
ID: 2509.02622v1 eess.AS, cs.AI, cs.SD, eess.SP
Авторы:

Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen, Kai Yu

#### Контекст Крупные звуковые языковые модели (LALMs) расширяют текстовые модели с большим объемом текстов, добавляя универсальные возможности звукового понимания. Однако они чувствительны к инструкциям, при которых задачи, выраженные в разных формах, могут приводить к разным результатам. Эта непредсказуемость ограничивает широкое применение LALMs в реальных сценариях. Для решения этой проблемы необходима универсальная, надежная и простая в использовании система управления задачами, не требующая конкретных инструкций. #### Метод Мы предлагаем AHAMask — метод, основанный на маскировании определенных аттенционных заголовков в декодерной LALM-модели. Этот подход позволяет непосредственно активировать функции звукового понимания, не требуя специальных инструкций. Маски обучаются в составе LALM-архитектуры, сохраняя количество тренируемых параметров равным количеству аттенционных заголовков в основной модели. Это снижает влияние дополнительных параметров на модель и обеспечивает эффективность. #### Результаты Мы провели эксперименты с широким спектром звуковых задач, включая распознавание речи, синтез речи и задачи композиции. Результаты показали, что AHAMask обеспечивает сопоставимую или даже лучшую производительность по сравнению с традиционными методами, использующими инструкции. Это подтверждает возможность LALM для надежного и бесшовного управления задачами. #### Значимость AHAMask может быть использован в различных сферах, таких как распознавание речи, звуковой анализ, генерация звука и синтез речи. Он предлагает удобную альтернативу инструкциям, что уменьшает сложность использования модели в реальных задачах. Это раскрывает перспективы для более широкого применения LALMs в сценариях, где надежность и простота ключевые факторы. #### Выводы AHAMask доказывает, что LALM-модели содержат "функциональные пути", которые могут быть активированы с помощью селективного маскирования. На этой основе мы планируем рассмотреть более глубокое изучение этих путей, чтобы улучшить понимание и управление функциональностью LALM-моделей. Также мы намереваемся применить этот подход к другим задачам, включая видео- и текстовые модели.
Annotation:
Although current large audio language models (LALMs) extend text large language models (LLMs) with generic acoustic understanding abilities, they usually suffer from instruction sensitivity, where different instructions of the same intention can yield drastically different outcomes. In this work, we propose AHAMask, where we simply mask some of the attention heads in the decoder-only LLM backbone of LALMs, to trigger specific acoustic task functionalities without instructions. These masks are ef...
ID: 2509.01787v1 eess.AS, cs.AI, cs.SD
Авторы:

Javier Si Zhao Hong, Timothy Zoe Delaya, Sherwyn Chan Yin Kit, Pai Chet Ng, Xiaoxiao Miao

#### Контекст Самоощущение бытия (self-awareness), психическое здоровье и функциональность человека зависят от емких и принятого в социуме поведения. Депрессия, как одна из наиболее распространенных психических расстройств, оказывает существенное влияние на эти аспекты. Однако, определение депрессии и её степени часто требует долговременного лечения и мониторинга, что может привести к задержке диагноза и последующим последствиям. Настоящее исследование ориентируется на разработку методов многоmodal'ного выявления депрессии, используя машинное обучение и глубокие нейронные сети. Это актуально в связи со становлением информационных технологий и ИИ в работе с психическим здоровьем. #### Метод Мы используем три типа данных: звуковые фрагменты, видео, и текстовые фрагменты, для выявления сигналов депрессии. Модели XGBoost, трансформер-архитектуры и большие языковые модели (LLMs) были выбраны для сравнительного анализа. Данные записывались в лаборатории специализированных устройств, включая телефоны, компьютеры, и компактные датчики. Модели обучались на многоканальных признаках, после чего проводился сравнительный анализ на выборке данных. Для анализа требулами мы применяли метрики F1-score и accuracy. #### Результаты Мы проверили работу моделей на трех модах: звуке, видео, и тексте. Исследование показало, что LLMs лучше всего справляются с видеоданными, за счёт их мощи в обработке естественного языка. XGBoost показал высокую производительность с звуковыми файлами. Трансформеры среднестатистически показались в эффективности, но демонстрируют лучшую производительность в качестве модификационных моделей. В целом, результаты подтвердили, что многоmodal'ное обучение может значительно улучшить точность диагноза депрессии. #### Значимость Наша работа открывает новые возможности для оптимизации диагностики депрессии с помощью ИИ. Многоmodal'ные модели могут быть применены в психиатрии для повышения точности диагноза, минимизации задержек, и улучшения результатов лечения. Мы также выделяем возможность использования наших моделей для других психических расстройств, таких как аутизм и тестирование синдрома дефицита внимания. #### Выводы Мы успешно исследовали различные модели машинного обучения для диагностики депрессии с помощью многоmodal'ных признаков. Наши результаты показали, что LLMs и XGBoost превосходят трансформеры в определенных модах данных. Мы также подтвердили значимость многоmodal'ных моделей в развитии ИИ для психического здоровья. В будущем мы планируем расширить наши модели для включ
Annotation:
This paper presents our approach to the first Multimodal Personality-Aware Depression Detection Challenge, focusing on multimodal depression detection using machine learning and deep learning models. We explore and compare the performance of XGBoost, transformer-based architectures, and large language models (LLMs) on audio, video, and text features. Our results highlight the strengths and limitations of each type of model in capturing depression-related signals across modalities, offering insig...
ID: 2508.20805v1 cs.CL, cs.AI, cs.SD
Авторы:

Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang

## Контекст Генерирующие модели становятся все более высокотехнологичными, в том числе в области говорящих головок (talking head generation). Однако большинство существующих моделей ограничиваются простой анимацией портрета в одностороннем режиме. Даже те, что могут обеспечить бидактивные диалоги, часто не умеют адаптироваться к эмоциям в реальном времени. Это ограничивает их практическое применение. Наша модель EAI-Avatar разработана для более естественных и эмоционально реагирующих диалогов, которые могут улучшить интерактивность в широком кругу приложений, таких как виртуальные ассистенты, игры и анимация. ## Метод EAI-Avatar основывается на диалоге ло LLM (например, GPT-4) для генерации текста, который далее используется для синтеза говорящего голова. Мы используем Transformer-based head mask generator, который учится определять консистентные фичи движения в пространстве масок. Это позволяет синтезировать последовательности движений головы в любой продолжительности. Для улучшения эмоциональной реактивности мы представили интерактивное дерево диалогов (interactive talking tree), в котором каждый узел содержит информацию о родственных элементах, текущем состоянии эмоций и истории взаимодействия. Мы проводим обратную структурную иерархию (reverse-level traversal) для извлечения эмоциональных подсказок из предыдущих узлов и управляем эмоциональным синтезом выражений. ## Результаты Мы провели эксперименты с различными диалогами и данными эмоций, сравнивая EAI-Avatar с другими моделями. Наши результаты показали значительное улучшение в точности адаптации эмоций и в качестве расширенных подсказок по диалогу. Модель удалось генерировать виртуальных аватаров с широким спектром эмоциональных реакций, которые выглядят натуральными и подходят для динамичных сценариев. Мы также проверили консистентность движений головы в продолжительных диалогах. ## Значимость EAI-Avatar может применяться в различных областях, включая виртуальных ассистентов, игровые системы, обучающие платформы и анимацию. Он предлагает надежные решения для генерации говорящих голов с эмоциональным вовлечением и консистентностью. Это может сделать взаимодействия более естественными и отзывчивыми, что повысит удобство пользователей. ## Выводы Мы предлагаем EAI-Avatar как новую модель для эмоционально реактивной говорящей головы. Будущие исследования будут фокусироваться на улучшении точности динамического синтеза эмоций, расширении интерактивных возможностей и оптимизации модели для реальных временных сценариев.
Annotation:
Generative models have advanced rapidly, enabling impressive talking head generation that brings AI to life. However, most existing methods focus solely on one-way portrait animation. Even the few that support bidirectional conversational interactions lack precise emotion-adaptive capabilities, significantly limiting their practical applicability. In this paper, we propose EAI-Avatar, a novel emotion-aware talking head generation framework for dyadic interactions. Leveraging the dialogue generat...
ID: 2508.18337v1 eess.AS, cs.AI, cs.SD
Авторы:

Xiaoliang Chen, Xin Yu, Le Chang, Teng Jing, Jiashuai He, Ze Wang, Yangjun Luo, Xingyu Chen, Jiayue Liang, Yuchen Wang, Jiaying Xie

## Контекст Информационные ассимметрии на финансовых рынках часто усиливаются стратегически выстроенными корпоративными нарративами, что снижает эффективность традиционных текстовых анализов. В этой статье предлагается новый многомодальный подход для оценки финансового риска, который объединяет текстовую чувственность с паралингвистическими признаками, полученными из динамики голосовых складок экзекутивного штаба на заседаниях по выручке. Основой этого подхода является Физико-Информированная Акустическая Модель (PIAM), которая использует нелинейную акустику для отделения семантических признаков из RAW звуковых данных, подвергнутых деформациям, таким как сигнальное срезание. Данный подход позволяет детально изучать эмоциональную статистику и риск на финансовых рынках. ## Метод Многомодальная модель использует текстовую чувственность из текстов докладов и паралингвистические признаки из звуковых сигналов. Звуковые сигналы анализируются с помощью PIAM, которая применяет нелинейную акустику для извлечения эмоциональных признаков. Результаты анализа проектируются в пространство Affective State Label (ASL), состоящее из трех измерений: Tension (напряженность), Stability (стабильность) и Arousal (возбужденность). Эти признаки используются для оценки синхронных динамик в эмоциональном состоянии экзекутивного штаба. Данные были получены из 1 795 вызовов по выручке, объемом примерно 1 800 часов. ## Результаты Эксперименты показали, что риск на финансовых рынках может быть эффективно определен с помощью звуковых сигналов, а не только на основе текстовых данных. Многомодальная модель позиционируется как более точная в предсказании риска на рынке, чем модели, основанные только на тексте. Особое внимание уделено измерению уровня уверенности в эмоциональной динамике, в частности, отличительным признаком является возбуждение, вызванное переходом от скриптованного доклада к неорганизованному обмену во время Q&A секции. Было показано, что модель демонстрирует значительное превосходство над моделью, основанной только на финансовых данных. ## Значимость Этот подход может быть применен в системах мониторинга рынков, финансовом анализе и понимании рыночных динамик. Он предлагает преимущества в улучшении возможностей прогнозирования и риск-менеджмента. Кроме того, предложенный подход может иметь влияние на регулирование финансовых рынков и повышение уровня прозрачности. ## Выводы Выводы основываются на предложенной многомодальной модели, которая демонстрирует преимущества в прогнозировании финансового риска, опираясь на эмо
Annotation:
Information asymmetry in financial markets, often amplified by strategically crafted corporate narratives, undermines the effectiveness of conventional textual analysis. We propose a novel multimodal framework for financial risk assessment that integrates textual sentiment with paralinguistic cues derived from executive vocal tract dynamics in earnings calls. Central to this framework is the Physics-Informed Acoustic Model (PIAM), which applies nonlinear acoustics to robustly extract emotional s...
ID: 2508.18653v1 cs.LG, cs.AI, cs.SD, eess.AS, 62P05, 68T0, I.2.7; J.4
Показано 41 - 50 из 65 записей