📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Liang-Yuan Wu, Dhruv Jain

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Automatic Speech Recognition (ASR) systems often fail to accurately transcribe speech from Deaf and Hard of Hearing (DHH) individuals, especially during real-time conversations. Existing personalization approaches typically require extensive pre-recorded data and place the burden of adaptation on the DHH speaker. We present EvolveCaptions, a real-time, collaborative ASR adaptation system that supports in-situ personalization with minimal effort. Hearing participants correct ASR errors during liv...
ID: 2510.02181v1 cs.HC, cs.AI, cs.SD, eess.AS
Авторы:

Błażej Kotowski, Nicholas Evans, Behzad Haki, Frederic Font, Sergi Jordà

## Контекст Предлагаемая работа изучает GrooveTransformer, реального времени систему генерации ритма, с помощью фреймворка Феноменологического Вариационного Разведения (Variational Cross-Examination, VCE). Она опирается на ее развертывание в трех разных искусственных контекстах. Эти контексты позволяют выделить три стабильных режима использования: автоматический поддерживающий драммашин, систему управления ритмом в формате Eurorack, и драйвер ритма для гармонической аккомпанементной системы. Несмотря на то, что многофункциональность не была преднамеренной целью проекта, появление этой многосторонности породило вопросы: как это произошло? VCE помогает выявить три основные факторы этой многосторонности: свойства системных неизменяемостей, междисциплинарное сотрудничество, и ситуатность ее развития. Таким образом, работа позволяет раскрыть новые возможности VCE в описании и анализе цифровых музыкальных инструментов (DMI), сфокусировавшись на том, как технологии взаимодействуют, контролируются и взаимообразуются с пользователями и контекстами. ## Метод Методология исследования основывается на фреймворке Variational Cross-Examination (VCE), который представляет собой постфеноменологический подход к расследованию цифровых музыкальных инструментов. Он рассматривает системы технического проектирования не только как функциональные объекты, но и как технологические предметы, которые взаимодействуют с пользователями и контекстами. В работе проводится анализ GrooveTransformer с помощью трех различных применений. Технические решения включают разработку системы, использования методов управления ритмом, а также анализ управления и динамического создания ритма. Архитектура GrooveTransformer включает нейросетевые модели, работающие в реальном времени для генерации ритмов в различных контекстах. Это позволяет рассмотреть многообразие применений и их стабильности в разных условиях. ## Результаты Результаты исследования показали, что GrooveTransformer может функционировать как автономная ритм-машина, контролирующая аккомпанемент, так и как инструмент для генерации ритма в системах Eurorack. Эти режимы были выявлены во время анализа его применения в трех разных искусственных контекстах. Также были выявлены системные неизменяемости, которые позволяют системе гибко адаптироваться к различным сценариям. Эксперименты показали, что GrooveTransformer может быть использован как развивающийся DMI, имеющий значительное потенциальное влияние на генерацию ритма в различных музыкальных стилях и контекстах. Данные результаты подтверждают эффективность VCE в том, чтобы выявить и изучить многосторонние применения DMI. ## Значи
Annotation:
This paper investigates GrooveTransformer, a real-time rhythm generation system, through the postphenomenological framework of Variational Cross-Examination (VCE). By reflecting on its deployment across three distinct artistic contexts, we identify three stabilities: an autonomous drum accompaniment generator, a rhythmic control voltage sequencer in Eurorack format, and a rhythm driver for a harmonic accompaniment system. The versatility of its applications was not an explicit goal from the outs...
ID: 2509.05145v1 cs.HC, cs.AI, cs.SD, eess.AS
Авторы:

Yuan-Yi Fan

#### Контекст Процессы создания контента в мультимедиа становятся все более интерактивными, но требуют значительных усилий для достижения высокой точности при выполнении комплексных задач. Текстовые запросы позволяют легко задавать потребности, но часто не обеспечивают достаточной точности. Альтернативой — сложные системы управления с помощью нобсов или ползунков, которые требуют большого количества знаний и ресурсов. Это создает затруднения в поиске баланса между простотой и точностью. Целью данного исследования является разработка системы, которая бы способствовала более эффективному сочетанию текстовых запросов и точных настроек, с помощью нового протокола MCP (Model Context Protocol). #### Метод Для решения этой проблемы предлагается использовать новый протокол MCP (Model Context Protocol), который позволяет использовать текстовые запросы для управления OSC (OpenSoundControl) системами. Эта система включает в себя MCP2OSC-сервер и новые критерии для разработки текстовых запросов. Основная методика заключается в комбинировании мощи значительного языкового модели (LLM) с функциональностью сервера для преобразования естественного языка в OSC-сообщения. Использованы 14 практических примеров с запросами и шаблонами текстовых запросов, что позволило проверить эффективность системы в различных сценариях использования. #### Результаты Испытания показали, что Claude (LLM), сконфигурированный с MCP2OSC-сервером, позволяет легко и эффективно управлять OSC-системами с помощью естественного языка. Эта система может искать, валидировать, интерпретировать, дебажить, и визуализировать OSC-сообщения, а также управлять OSC-адресами. Отдельно подчеркнут высокий уровень точности и простоту взаимодействия, которые данная система предоставляет. Эксперименты подтверждают, что MCP2OSC можно использовать для решения ключевых задач в разработке OSC-систем, достигая точности и комфорта. #### Значимость Предлагаемая система может быть применена в различных областях, включая звуковую и визуальную синтез, робототехнику, интерактивные инсталляции, и другие системы, требующие точного управления. Основные преимущества заключаются в упрощении процессов управления, увеличении точности, и возможности комбинирования текстовых запросов с точным техническим контролем. Будущие исследования могут сфокусироваться на расширении функциональности MCP2OSC, внедрении в различные мультимедийные системы, и развитии дополнительных критериев текстовых запросов. #### Выводы Разработанная система MCP2OSC представляет собой новую модель сов
Annotation:
Text prompts enable intuitive content creation but may fall short in achieving high precision for intricate tasks; knob or slider controls offer precise adjustments at the cost of increased complexity. To address the gap between knobs and prompts, a new MCP (Model Context Protocol) server and a unique set of prompt design criteria are presented to enable exploring parametric OSC (OpenSoundControl) control by natural language prompts. Demonstrated by 14 practical QA examples with best practices a...
ID: 2508.10414v1 cs.HC, cs.AI, cs.SD, eess.AS