📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Liang-Yuan Wu, Dhruv Jain
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Automatic Speech Recognition (ASR) systems often fail to accurately
transcribe speech from Deaf and Hard of Hearing (DHH) individuals, especially
during real-time conversations. Existing personalization approaches typically
require extensive pre-recorded data and place the burden of adaptation on the
DHH speaker. We present EvolveCaptions, a real-time, collaborative ASR
adaptation system that supports in-situ personalization with minimal effort.
Hearing participants correct ASR errors during liv...
📄 Exploring Situated Stabilities of a Rhythm Generation System through Variational Cross-Examination
2025-09-09Авторы:
Błażej Kotowski, Nicholas Evans, Behzad Haki, Frederic Font, Sergi Jordà
## Контекст
Предлагаемая работа изучает GrooveTransformer, реального времени систему генерации ритма, с помощью фреймворка Феноменологического Вариационного Разведения (Variational Cross-Examination, VCE). Она опирается на ее развертывание в трех разных искусственных контекстах. Эти контексты позволяют выделить три стабильных режима использования: автоматический поддерживающий драммашин, систему управления ритмом в формате Eurorack, и драйвер ритма для гармонической аккомпанементной системы. Несмотря на то, что многофункциональность не была преднамеренной целью проекта, появление этой многосторонности породило вопросы: как это произошло? VCE помогает выявить три основные факторы этой многосторонности: свойства системных неизменяемостей, междисциплинарное сотрудничество, и ситуатность ее развития. Таким образом, работа позволяет раскрыть новые возможности VCE в описании и анализе цифровых музыкальных инструментов (DMI), сфокусировавшись на том, как технологии взаимодействуют, контролируются и взаимообразуются с пользователями и контекстами.
## Метод
Методология исследования основывается на фреймворке Variational Cross-Examination (VCE), который представляет собой постфеноменологический подход к расследованию цифровых музыкальных инструментов. Он рассматривает системы технического проектирования не только как функциональные объекты, но и как технологические предметы, которые взаимодействуют с пользователями и контекстами. В работе проводится анализ GrooveTransformer с помощью трех различных применений. Технические решения включают разработку системы, использования методов управления ритмом, а также анализ управления и динамического создания ритма. Архитектура GrooveTransformer включает нейросетевые модели, работающие в реальном времени для генерации ритмов в различных контекстах. Это позволяет рассмотреть многообразие применений и их стабильности в разных условиях.
## Результаты
Результаты исследования показали, что GrooveTransformer может функционировать как автономная ритм-машина, контролирующая аккомпанемент, так и как инструмент для генерации ритма в системах Eurorack. Эти режимы были выявлены во время анализа его применения в трех разных искусственных контекстах. Также были выявлены системные неизменяемости, которые позволяют системе гибко адаптироваться к различным сценариям. Эксперименты показали, что GrooveTransformer может быть использован как развивающийся DMI, имеющий значительное потенциальное влияние на генерацию ритма в различных музыкальных стилях и контекстах. Данные результаты подтверждают эффективность VCE в том, чтобы выявить и изучить многосторонние применения DMI.
## Значи
Annotation:
This paper investigates GrooveTransformer, a real-time rhythm generation
system, through the postphenomenological framework of Variational
Cross-Examination (VCE). By reflecting on its deployment across three distinct
artistic contexts, we identify three stabilities: an autonomous drum
accompaniment generator, a rhythmic control voltage sequencer in Eurorack
format, and a rhythm driver for a harmonic accompaniment system. The
versatility of its applications was not an explicit goal from the outs...
Авторы:
Yuan-Yi Fan
#### Контекст
Процессы создания контента в мультимедиа становятся все более интерактивными, но требуют значительных усилий для достижения высокой точности при выполнении комплексных задач. Текстовые запросы позволяют легко задавать потребности, но часто не обеспечивают достаточной точности. Альтернативой — сложные системы управления с помощью нобсов или ползунков, которые требуют большого количества знаний и ресурсов. Это создает затруднения в поиске баланса между простотой и точностью. Целью данного исследования является разработка системы, которая бы способствовала более эффективному сочетанию текстовых запросов и точных настроек, с помощью нового протокола MCP (Model Context Protocol).
#### Метод
Для решения этой проблемы предлагается использовать новый протокол MCP (Model Context Protocol), который позволяет использовать текстовые запросы для управления OSC (OpenSoundControl) системами. Эта система включает в себя MCP2OSC-сервер и новые критерии для разработки текстовых запросов. Основная методика заключается в комбинировании мощи значительного языкового модели (LLM) с функциональностью сервера для преобразования естественного языка в OSC-сообщения. Использованы 14 практических примеров с запросами и шаблонами текстовых запросов, что позволило проверить эффективность системы в различных сценариях использования.
#### Результаты
Испытания показали, что Claude (LLM), сконфигурированный с MCP2OSC-сервером, позволяет легко и эффективно управлять OSC-системами с помощью естественного языка. Эта система может искать, валидировать, интерпретировать, дебажить, и визуализировать OSC-сообщения, а также управлять OSC-адресами. Отдельно подчеркнут высокий уровень точности и простоту взаимодействия, которые данная система предоставляет. Эксперименты подтверждают, что MCP2OSC можно использовать для решения ключевых задач в разработке OSC-систем, достигая точности и комфорта.
#### Значимость
Предлагаемая система может быть применена в различных областях, включая звуковую и визуальную синтез, робототехнику, интерактивные инсталляции, и другие системы, требующие точного управления. Основные преимущества заключаются в упрощении процессов управления, увеличении точности, и возможности комбинирования текстовых запросов с точным техническим контролем. Будущие исследования могут сфокусироваться на расширении функциональности MCP2OSC, внедрении в различные мультимедийные системы, и развитии дополнительных критериев текстовых запросов.
#### Выводы
Разработанная система MCP2OSC представляет собой новую модель сов
Annotation:
Text prompts enable intuitive content creation but may fall short in
achieving high precision for intricate tasks; knob or slider controls offer
precise adjustments at the cost of increased complexity. To address the gap
between knobs and prompts, a new MCP (Model Context Protocol) server and a
unique set of prompt design criteria are presented to enable exploring
parametric OSC (OpenSoundControl) control by natural language prompts.
Demonstrated by 14 practical QA examples with best practices a...