📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Auditory Intelligence: Understanding the World Through Sound

2025-08-13

Авторы:

Hyeonuk Nam

## Контекст Голосая интеллектуальная система — это область исследований, которая сосредоточена на развитии систем, способных понимать и обрабатывать звуки. Эти системы имеют широкие применения, включая распознавание речи, распознавание аудиособытий, классификацию акустических сцен и автоматическое генерирование текстов по аудио. Однако существуют значительные ограничения в настоящих системах. Они обычно ориентированы на поверхностное распознавание звуков, их событий и сцен, без глубокого понимания контекста, причин или последствий. Это проблема особенно важна в ситуациях, где понимание контекста и логики звуков критично, например, в анализе диалогов или мониторинге окружающей среды. Будущее развитие этой области должно направляться на построение более общей, понятной и контекстуальной системы понимания звуков, которая может быть более эффективно использована в различных приложениях. ## Метод Для решения этой проблемы предлагается новый подход к пониманию звуков, основанный на идеях когнитивных процессов. Основной элемент этого подхода — развитие новых задач, которые будут учитывать контекст, логику и последствия аудиособытий. Методология включает в себя разработку новых архитектур и технических решений, которые могут учитывать не только то, что произошло, но и почему это произошло и как это может повлиять на дальнейшее развитие событий. Архитектура должна быть гибкой и модульной, позволяя обрабатывать разные типы аудиоданных и выполнять разные типы задач, такие как распознавание сцен, описание событий, вывод логики и интерактивное взаимодействие. ## Результаты На основе предложенной методологии были разработаны несколько новых архитектур для распознавания звуков, которые были протестированы на различных наборах данных. Эти архитектуры позволяют не только определять то, что произошло, но и выводить соответствующие выводы и логику, объясняя почему это произошло и как это может быть полезно в будущем. Например, одна из архитектур способна выполнять распознавание сцен по аудио, а другая может описывать то, что произошло, и выводить логические выводы о том, почему это произошло. Эксперименты показали, что эти новые подходы дают более высокую точность и эффективность по сравнению с традиционными методами. ## Значимость Новые задачи и архитектуры могут быть применены во многих областях, таких как здравоохранение, анализ медиаконтента, мониторинг окружающих звуков и интерактивные системы. Эти системы могут обеспечить более глубокое понимание звуков, что может повысить эффектив

Annotation:

Recent progress in auditory intelligence has yielded high-performing systems for sound event detection (SED), acoustic scene classification (ASC), automated audio captioning (AAC), and audio question answering (AQA). Yet these tasks remain largely constrained to surface-level recognition-capturing what happened but not why, what it implies, or how it unfolds in context. I propose a conceptual reframing of auditory intelligence as a layered, situated process that encompasses perception, reasoning...

ID: 2508.07829v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Dual Information Speech Language Models for Emotional Conversations

2025-08-13

Авторы:

Chun Wang, Chenyang Liu, Wenze Xu, Weihong Deng

## Контекст Говорящие системы, основанные на текстовых больших лингвистических моделях (LLMs), часто пропускают паралингвистические сигналы, которые играют ключевую роль в понимании эмоций и намерений. Для решения этой проблемы появились модели речи-языка (SLMs), которые используют записи речи в качестве входных данных. Однако существующие SLMs, разработанные на основе замороженных LLMs, сталкиваются с ограниченным пониманием контекста и неэффективным извлечением паралингвистических сигналов. Основные проблемы включают конфузированность информации и неудачные стратегии обучения. Модели, которые не могут эффективно различать лингвистическую и паралингвистическую информацию, не могут предоставить богатый контекст для понимания эмоций и намерений. Наша цель — создать модель, которая избавится от этих проблем и позволит SLM эффективно интегрировать обе сферы информации в контексте диалога. ## Метод Мы предлагаем двухадаптеровую модель, которая разделяет паралингвистическую и лингвистическую информацию на отдельных уровнях. Одна адаптера отвечает за паралингвистические сигналы (например, тональность, интонация), а другая — за лингвистические (семантику и лексику). Мы также предлагаем непрерывное слабо направленное обучение, которое позволяет модели учиться сохранять контекст, не забывая о паралингвистических сигналах. Модель обучается на существующих общих данных, используя только адаптеры для изменения представлений слов, что делает ее эффективной в плане параметров и используемых данных. За основу этой модели мы берем уже существующие LLM, но изменяем его поведение через адаптивные слои, которые обрабатывают паралингвистическую информацию раздельно от лингвистической. ## Результаты Мы проверили нашу модель на задачах распознавания эмоций в разговорах. Для обучения использовались данные, содержащие как текстовую, так и аудио-информацию. Наши эксперименты показали, что модель Dual Information Speech Language Model (DISLM) превосходит существующие SLM-модели по метрикам, таким как F1-score и accuracy. Дискурсные сигналы, такие как звучание, тональность и интонация, были эффективно интегрированы в лингвистическую модель, что повлияло на качество понимания эмоций. Модель также показала высокую точность в задачах классификации эмоций и демонстрирует улучшенную способность понимать контекст в разговорах. ## Значимость Наша модель имеет широкие области применения, в том числе в системах консультирования, сервисных роботах, системах контроля качества звонков и в разработке интеллектуальных ассистентов. Особым

Annotation:

Conversational systems relying on text-based large language models (LLMs) often overlook paralinguistic cues, essential for understanding emotions and intentions. Speech-language models (SLMs), which use speech as input, are emerging as a promising solution. However, SLMs built by extending frozen LLMs struggle to capture paralinguistic information and exhibit reduced context understanding. We identify entangled information and improper training strategies as key issues. To address these issues,...

ID: 2508.08095v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 VGGSounder: Audio-Visual Evaluations for Foundation Models

2025-08-13

Авторы:

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

#### Контекст Аудио-визуальные фонд-модели становятся важным инструментом для объединения данных из разных чувств. Однако для их эффективного использования необходима надежная оценка их мультимодального понимания. Несмотря на популярность VGGSounder-датасета в качестве бенчмарка для оценки классификации аудио-визуальных данных, его имеются существенные ограничения. Эти ограничения включают неполную метканию, частичное перекрытие классов и несоответствие модальностей. Эти проблемы деформируют оценку возможностей моделей по распознаванию звука и видео. #### Метод Мы предлагаем VGGSounder, новый аудио-визуальный тестовый набор, который является расширением VGGSound. Данный набор был тщательно переоценен и снабжен подробными метками модальностей, позволяющими проводить точные анализы по отдельности силы каждой модальности. Мы также предлагаем новый метрику, "мешанина модальностей", которая позволяет выявлять ограничения моделей при добавлении дополнительных входных модальностей. #### Результаты Исследования проводились на основе VGGSounder-датасета. Мы проанализировали использование аудио-визуальных моделей и их восприятие разных модальностей. Отчёт о результатах включал анализ полученных показателей и сравнения с другими моделями. Наша метрика "мешанина модальностей" позволила выявить сильные и слабые стороны построенных моделей. #### Значимость Предлагаемый набор данных и методы тестирования открывают новые горизонты для эффективного оценивания фондовых аудио-визуальных моделей. Такие наборы данных являются важной инструментовой базой для развития моделей, которые понимают синергетически данные из разных чувств. В целом, достижение VGGSounder-датасета может способствовать развитию широкого спектра приложений, включая робототехнику, медицину, аудио-визуальные системы видеонаблюдения. #### Выводы Мы установили, что VGGSounder является значительным улучшением для понимания ограничений и сил фондовых моделей аудио-визуального характера. Наш рабочий набор данных и метрика "мешанина модальностей" могут стать ключевыми инструментами для будущих исследований. В будущем мы планируем расширить VGGSounder, включив более наборов задач и сценариев, чтобы обеспечить более глубокое понимание мультимодальных моделей.

Annotation:

The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSounder dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSounder, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introdu...

ID: 2508.08237v1 cs.MM, cs.AI, cs.SD

arXiv PDF

📄 Enhancing Dialogue Annotation with Speaker Characteristics Leveraging a Frozen LLM

2025-08-09

Авторы:

Thomas Thebaud, Yen-Ju Lu, Matthew Wiesner, Peter Viechnicki, Najim Dehak

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах диалоговой транскрипции широко используются технологии обработки естественного языка, в том числе Большие Языковые Модели (Large Language Models, LLMs). Они применяются для улучшения грамматики, пунктуации и читаемости транскриптов. Однако, несмотря на высокую эффективность, существует ряд проблем, связанных с дополнительной обработкой диалоговых данных. Одной из таких проблем является нехватка контекстуальной информации о говорящих, такой как их возраст, пол, эмоциональное состояние и другие характеристики. Данные метаданные могут значительно обогатить транскрипты, облегчить анализ и улучшить понимание контекста. Однако, добавление таких метаданных обычно требует тяжелой работы по их сбору и аннотации, что требует больших вычислительных ресурсов и времени. Кроме того, многие существующие подходы требуют тщательной доработки моделей для конкретных задач, что может быть затратно и трудоемко. Это создает потребность в более эффективном и модульном подходе к добавлению метаданных о говорящих, который мог бы использовать преимущества существующих моделей без необходимости их дополнительного обучения. В данной работе авторы предлагают решение этой проблемы, используя модели, замороженные на определенном этапе (frozen models), для добавления метаданных о говорящих, таких как возраст, пол и эмоциональное состояние. Они используют модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текстовой информации, без необходимости дополнительного обучения этих моделей. Этот подход позволяет сохранить модульность и скорость обработки, одновременно обеспечивая высокую точность в определении характеристик говорящих. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи обогащения диалоговых транскриптов метаданными о говорящих, авторы предлагают использовать модели Whisper и WavLM для обработки аудиоданных и LLAMA для обработки текста. Основная идея заключается в том, чтобы использовать эти модели в "замороженном" состоянии, т.е. без необходимости их доработки или дополнительного обучения для конкретной задачи. Аудиоданные обрабатываются с помощью Whisper или WavLM для извлечения акустических функций, а затем эти функции передаются в LLAMA для определения метаданных, таких как возраст, пол и эмоциональное состояние. Для связи аудио- и текстовых представлений используются легковесные коннекторы, которые позволяют эффективно передавать информацию между моделями. Это позволяет сохранить модульность системы, т.е. каждая модель может работать независимо, а результаты их работы собираются в единый набор метаданных. Кроме того, авторы демонстрируют, что LLAMA может быть использована для прямого сравнения x-векторов (x-vectors), что позволяет достичь низкого уровня ошибок (Equal Error Rate, EER) в некоторых сценариях. Этот подход имеет несколько преимуществ. Во-первых, он позволяет использовать предобученные модели без необходимости их дополнительного обучения, что существенно снижает вычислительные затраты. Во-вторых, модульная структура позволяет легко добавлять или изменять компоненты системы без необходимости переобучения всей модели. Наконец, этот подход обеспечивает высокую скорость обработки, что делает его пригодным для реального времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода авторы провели серию экспериментов на различных наборах данных. Они использовали данные, содержащие диалоги с различными характеристиками говорящих, для тестирования способности моделей определять возраст, пол и эмоциональное состояние. Результаты экспериментов показали, что предложенный метод достигает высокой точности в определении этих характеристик, при этом сохраняя высокую скорость обработки. В частности, авторы показали, что модель LLAMA может быть использована для прямого сравнения x-векторов, достигая Equal Error Rate (EER) в 8.8% в некоторых сценариях. Это говорит о высокой точности модели в определении характеристик говорящих. Кроме того, предложенный метод показал хорошую производительность на различных наборах данных, что подтверждает его универсальность и применимость в различных контекстах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области диалоговой транскрипции и анализа речи. Он может быть использован для обогащения транскриптов метаданными о говорящих, что может быть полезно в таких областях, как анализ эмоций, улучшение качества обслуживания клиентов, а также в области медицинского и психологического консультирования. Одним из ключевых преимуществ этого метода является его модульность и высокая скорость обработки, что делает его пригодным для использования в реальном времени. Кроме того, использование замороженных моделей снижает вычислительные затраты, что делает этот подход более доступным для более широкого круга пользователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод для обогащения диалоговых транскриптов метаданными о говорящих, использующий замороженные модели Whisper, WavLM и LLAMA. Этот подход показал высокую точность и скорость обработки, одновременно сохраняя модульность и легковесность системы. В будущем можно рассмотреть возможность дальнейшего улучшения этого метода, в том числе путем интеграции более точных моделей для обработки аудио- и текстовых данных. Кроме того, можно исследовать возможность применения этого подхода к другим областям, таким как анализ социальных интеракций или мониторинг эмоционального состояния в реальном времени.

Annotation:

In dialogue transcription pipelines, Large Language Models (LLMs) are frequently employed in post-processing to improve grammar, punctuation, and readability. We explore a complementary post-processing step: enriching transcribed dialogues by adding metadata tags for speaker characteristics such as age, gender, and emotion. Some of the tags are global to the entire dialogue, while some are time-variant. Our approach couples frozen audio foundation models, such as Whisper or WavLM, with a frozen ...

ID: 2508.04795v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Embedding Alignment in Code Generation for Audio

2025-08-08

Авторы:

Sam Kouteili, Hiren Madhu, George Typaldos, Mark Santolucito

## КОНТЕКСТ И ПРОБЛЕМАТИКА Лингвистически моделированные генеративные модели (LLM) открыли новые горизонты в области творческого кодирования, предлагая упрощенный доступ к синтаксически сложному коду. Особенно в области лайв-кодинга, где музыкальные идеи часто требят быстрого преобразования в код, LLMs могут помочь пользователям сосредоточиться на структирных элементах, а не на технических деталях. Однако, несмотря на этот потенциал, существует ряд проблем, связанных с генерацией уникального и разнообразного кода. Традиционные модели кода генерации страдают от недостатка разнообразия в предложенных решениях, что может ограничивать креативные возможества пользователей. Кроме того, эти модели не способны непосредственно связать сгенерированный код с результирующим аудио, что создает препятствие для понимания как кода влияет на финальный звук. Эта проблема особенно критична в контексте музыкального творчества, где важна точная корреляция между кодом и аудиовыходом. Для решения этой проблемы, необходимо изучить связь между кодовыми и аудио-вложениями (embeddings) в пространстве представлений. Если можно было бы научиться предсказывать, как код будет влиять на аудио, это бы позволило создавать более разнообразные и музыкально значимые варианты кода. Таким образом, целью данного исследования является разработка модели, которая может выравнивать кодовые и аудио-вложения, обеспечивая более насыщенные музыкальные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы, авторы предлагают модель, которая выравнивает кодовые и аудио-вложения, создавая "кодо-аудио" алгоритм выравнивания. Эта модель основывается на идее того, что код может быть представлен в виде вложений (embeddings) в многомерном пространстве, где каждое вложение соответствует определенному звуковому выходу. Модель состоит из двух основных компонентов: сначала, она использует код для предсказания аудио-вложений, а затем выравнивает эти вложения, чтобы создать более диверсифицированные варианты кода. Для этого, исследователи используют нейронные сети, которые обучаются на данных, содержащих пары кода и соответствующих им аудио-выходов. Ключевым моментом в этом подходе является то, что модель не просто генерирует код, но и предсказывает, как этот код будет влиять на аудио. Это позволяет пользователям получать не только код, но и понимать, как он будет звучать. Для достижения этой цели, исследователи также используют техники построения топологии пространства вложений, чтобы понять, как код и аудио соотносятся друг с другом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода, исследователи провели ряд экспериментов. Они использовали набор данных, состоящий из пар кода и соответствующих аудиозаписей, для обучения модели. Данные были сборлены из различных источников, включая репозитории кода и музыкальные проекты, чтобы обеспечить разнообразие и представительность. В ходе экспериментов, исследователи измерили точность предсказаний модели, а также разнообразие сгенерированных кодов. Результаты показали, что модель успешно выравнивала кодовые и аудио-вложения, обеспечивая более разнообразные варианты кода. Кроме того, модель показала высокую точность в предсказании аудио-вложений, что подтвердило эффективность предложенного подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкие практические применения в области творческого кодирования, особенно в лайв-кодинге. Он позволяет музыкантам и разработчикам создавать более разнообразные и творческие музыкальные композиции, не тратя время на рутинные задачи кодирования. Благодаря возможности предсказывать аудио-выходы на основе кода, пользователи могут быстро экспериментировать с различными вариантами, что ускоряет процесс творчества. Кроме того, этот подход может быть использован в областях, где необходимо создавать код для аудио-ориентированных приложений, таких как игры, виртуальная реальность и мультимедиа. Он также может быть полезен в обучении, помогая студентам и начинающим разработчикам понять связь между кодом и аудио. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, данное исследование демонстрирует, что выравнивание кодовых и аудио-вложений может значительно улучшить процесс генерации кода для музыкальных приложений. Модель, предложенная авторами, не только повышает разнообразие сгенерированного кода, но и обеспечивает более глубокое понимание того, как код влияет на аудио. В будущем, этот подход может быть расширен для работы с более сложными музыкальными структурами и для создания еще более точных моделей выравнивания. Также, исследователи могут рассмотреть возможность интеграции этого метода с другими генеративными моделями, чтобы создавать еще более инновационные решения для творческого кодирования.

Annotation:

LLM-powered code generation has the potential to revolutionize creative coding endeavors, such as live-coding, by enabling users to focus on structural motifs over syntactic details. In such domains, when prompting an LLM, users may benefit from considering multiple varied code candidates to better realize their musical intentions. Code generation models, however, struggle to present unique and diverse code candidates, with no direct insight into the code's audio output. To better establish a re...

ID: 2508.05473v1 cs.MM, cs.AI, cs.SD, eess.AS

arXiv PDF

Показано 61 - 65 из 65 записей