📚 Саммари научных статей из arXiv

Найдено 28 результатов по запросу 'cs.MM, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 MM-HSD: Multi-Modal Hate Speech Detection in Videos

2025-08-30

Авторы:

Berta Céspedes-Sarrias, Carlos Collado-Capell, Pablo Rodenas-Ruiz, Olena Hrynenko, Andrea Cavallaro

#### Контекст Область исследования — обнаружение ненавистных высказываний (ненавистного говорения, hate speech) в цифровых пространствах. Ненавистное говорение, выражаемое в тексте, аудио и видео, является важной проблемой социальных сетей, приложений мгновенных сообщений и других платформах. До сих пор, большинство исследований фокусируются на текстовом ненавистном говорении, значительно ограничивая понимание зависимости и взаимодействия с другими модальностями. Особенно видно это в видео, где сочетание аудио, визуальных элементов (в том числе текста на экране) и аудио может давать ключевые подсказки для точного обнаружения ненавистных высказываний. Недостаток существующих методов в том, что они не учитывают взаимодействия между различными модальностями, что приводит к потери полезной информации. Мотивация — разработать модель, которая учитывает не только текст, но и другие модальности, объединяя их в единую модель для эффективного обнаружения ненавистных высказываний. #### Метод Мы предлагаем MM-HSD — модель, которая интегрирует видеофреймы, аудио, текст из речи и текст из кадров, включая надписи на экране. Для эффективного извлечения признаков использована Cross-Modal Attention (CMA), экспериментируя с разными конфигурациями взаимодействия модальностей. Эта модель является первой, которая использует CMA как метод для извлечения признаков в модели ненавистного говорения в видео. Кроме того, мы проводим систематическую оценку различных конфигураций ключей и запросов в CMA, чтобы определить лучшие параметры для выделения важности каждой модальности. Модель обучается на датасете HateMM, который объединяет различные виды ненавистного говорения с несколькими модальностями. #### Результаты Мы производили эксперименты для оценки точности, полноты и M-F1-меры. На датасете HateMM, MM-HSD показала значительное улучшение в сравнении с состоянием искусственного интеллекта (state-of-the-art), оценив M-F1-меру в 0.874. Этот результат достигнут благодаря использованию комбинации текста, аудио, видео и текста из кадров как входных данных, а также применению Cross-Modal Attention для извлечения признаков. Наилучшие результаты получены при использовании текста из кадров в качестве запроса и всех остальных модальностей в качестве ключей. #### Значимость Модель MM-HSD может быть применена для мониторинга содержимого в видео, включая социальные сети, трансляции в режиме реального времени, а также в правовой практике для обнаружения ненавистных высказываний. Благодаря интеграции нескольких модальностей, MM-HSD обеспечивает более точное и полное понимание контекста в видеоматериалах. Это увели

Annotation:

While hate speech detection (HSD) has been extensively studied in text, existing multi-modal approaches remain limited, particularly in videos. As modalities are not always individually informative, simple fusion methods fail to fully capture inter-modal dependencies. Moreover, previous work often omits relevant modalities such as on-screen text and audio, which may contain subtle hateful content and thus provide essential cues, both individually and in combination with others. In this paper, we...

ID: 2508.20546v1 cs.MM, cs.AI

arXiv PDF

📄 PETLP: A Privacy-by-Design Pipeline for Social Media Data in AI Research

2025-08-15

Авторы:

Nick Oh, Giorgos D. Vrakas, Siân J. M. Brooke, Sasha Morinière, Toju Duke

## Контекст Social media data широко используется в исследованиях в области прикладного искусственного интеллекта (AI). Однако его использование подчиняется нескольким законодательным и этическим фреймворкам, включая Европейский регламент об общих правилах по защите данных (GDPR), а также требования платформ социальных сетей и законодательство о защите авторских прав. Недостаток совместного интегрированного подхода делает сложной задачу выявления соответствующих требований и создания соответствующих инструментов для обеспечения соответствия. Без такового, AI-исследователи становятся уязвимыми к риску нарушения законов и потенциальным этическим и репутационным последствиям. ## Метод PETLP (Privacy-by-design Extract, Transform, Load, and Present) — это полностью новая методология для построения пайплайнов обработки данных, встроенных в системы управления исследовательскими проектами. Эта методология нацелена на интеграцию требований законодательства в ранних стадиях исследования. Система PETLP включает в себя следующие этапы: - **Extract**: Этап выборки данных социальных сетей с учетом разрешений и ограничений, подключая возможность применения GDPR Article 3 (для некоммерческих организаций). - **Transform**: Этап преобразования данных с использованием методов, обеспечивающих приватность (например, генерация хеш-значений и скрытие уязвимых данных). - **Load**: Этап хранения данных в безопасных системах с доступом только для авторизованных пользователей. - **Present**: Этап представления данных в доступном для исследований виде, соблюдая все законные и этические нормы. ## Результаты В ходе исследований были проанализированы данные социальной сети Reddit. Был опробован рабочий прототип PETLP, который позволил идентифицировать различия в правах доступа для некоммерческих и коммерческих организаций. Результаты показали, что некоммерческие команды могут применять GDPR Article 3 для преодоления некоторых ограничений платформ, в то время как коммерческие организации могут ограничиваться только терминами использования платформ. Опыт показал, что при использовании PETLP можно создавать данные, используемые в исследованиях, которые соблюдают требования GDPR, но при этом убедиться в том, что данные не являются полностью анонимными. ## Значимость Подход PETLP может быть применен в различных областях исследований, где требуется обработка данных социальных сетей, такие как машинное обучение, искусственный интеллект и анализ группового поведения. Он обеспечивает лучшую соблюдение законных требований, снижает риски для исследователей и обеспечивает более прозрачное управление данными. Помимо этого, PETLP может положительно сказаться на репутации ис

Annotation:

Social media data presents AI researchers with overlapping obligations under the GDPR, copyright law, and platform terms -- yet existing frameworks fail to integrate these regulatory domains, leaving researchers without unified guidance. We introduce PETLP (Privacy-by-design Extract, Transform, Load, and Present), a compliance framework that embeds legal safeguards directly into extended ETL pipelines. Central to PETLP is treating Data Protection Impact Assessments as living documents that evolv...

ID: 2508.09232v1 cs.MM, cs.AI, cs.DB

arXiv PDF

📄 AI Blob! LLM-Driven Recontextualization of Italian Television Archives

2025-08-15

Авторы:

Roberto Balestri

## Контекст Область исследования связана с использованием ИИ для улучшения доступа к историческим телевизионным архивам. Исторические телевизионные архивы часто остаются недоступными или неэффективно используются из-за сложности в их поиске и реконтекстуализации. Традиционные методы, основанные на статических метаданных, не могут удовлетворительно разрешать эти задачи. AI Blob! предлагает использовать семантические технологии и Large Language Models (LLMs) для более эффективного поиска, реконтекстуализации и создания новых номинативных позиций в архивах. Основная мотивация заключается в развитии инструментов, которые могут автоматизировать и улучшить процесс доступа к телевизионным архивам, позволяя новым видам художественного и исторического восприятия. ## Метод Система AI Blob! использует методы автоматического распознавания речи (ASR), семантических векторов и retrieval-augmented generation (RAG). Архивная видео footage, содержащаяся в 1,547 видеозаписях, проходит ASR для генерации текстовых транскриптов. Затем эти транскрипты разбиваются на уровень предложений, и каждое предложение становится объектом semantic embedding, которые вставляются в векторную базу данных. Пользователь может вводить тематические запросы, например "politics" или "culture". LLM, используя эти запросы, выдает ряд семантически похожих запросов, которые расширяют поиск. На основе этих входных данных, система выбирает аудио-визуальные фрагменты, которые организуются в новую логическую последовательность, представляющую собой новую хронологию и контекст. Это позволяет создавать новые тематические монтажи, подобные редакторским практикам журналистики. ## Результаты AI Blob! провел эксперименты с 1,547 видеозаписями, реализовав систему поиска и реконтекстуализации. В результате, возможность поиска по семантическим запросам была достигнута, что позволило значительно улучшить доступ к архивным материалам. Алгоритмы поиска векторной базы данных позволили реконструировать новые тематические последовательности, предоставляя пользователям более широкий выбор для анализа и создания новых номинативных структур. Это демонстрирует возможность поиска по семантическим характеристикам, а не только метаданным. ## Значимость AI Blob! может применяться в области исторического исследования, культурного анализа и архивальной работы. Он предлагает новые возможности для автоматизации и улучшения доступа к телевизионным архивам. В отличие от традиционных методов, он позволяет вести более точный поиск по тематическим запросам, что улучшает эффективность работы с

Annotation:

This paper introduces AI Blob!, an experimental system designed to explore the potential of semantic cataloging and Large Language Models (LLMs) for the retrieval and recontextualization of archival television footage. Drawing methodological inspiration from Italian television programs such as Blob (RAI Tre, 1989-), AI Blob! integrates automatic speech recognition (ASR), semantic embeddings, and retrieval-augmented generation (RAG) to organize and reinterpret archival content. The system process...

ID: 2508.09535v1 cs.MM, cs.AI, cs.CL, cs.DL

arXiv PDF

📄 VGGSounder: Audio-Visual Evaluations for Foundation Models

2025-08-14

Авторы:

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

## Контекст Аудио-визуальные фундаментальные модели, использующие звуковые и зрительные сигналы, приобретают все большую значимость в области машинного обучения. Одной из ключевых задач в этой области является правильное оценивание понимания таких моделей. Для этого часто используется датасет VGGSound, который представляет собой значительный ресурс для оценки классификации аудио-визуальных сигналов. Однако наш анализ выявил несколько проблем, включая неполную меткацию, пересекающиеся классы и неоднородность между модальностями. Эти ошибки влияют на точность оценки моделей и потенциально приводят к неверным выводам. Чтобы устранить эти недостатки, мы предлагаем VGGSounder — расширенный, перезагруженный датасет с подробными мультимодальными метками, который позволяет проводить более точные исследования. ## Метод VGGSounder является дополнением к VGGSound и представляет собой новый многомерный тестовый набор, основанный на том же наборе видео, но с переоцененными метками. Методология включает перезагрузку меток с целью гарантировать точность и полноту. Мы также ввели новый метрику "модальностная путаница", которая позволяет отслеживать различия в производительности моделей при добавлении дополнительной модальности. Данная метрика позволяет выявлять недостатки моделей, связанные с их несовершенным пониманием мультимодальных сигналов. ## Результаты Мы провели эксперименты с использованием VGGSounder на нескольких знаковых моделях аудио-визуального понимания. Наши результаты показали, что многие модели демонстрируют существенные недостатки в понимании одной или обеих модальностей. Например, мы обнаружили, что при добавлении дополнительной модальности производительность моделей значительно ухудшается из-за существующих несовпадений и пересечений классов. Эти результаты демонстрируют необходимость более точных методов оценки для таких моделей. ## Значимость VGGSounder открывает новые возможности для понимания и оценки аудио-визуальных моделей. Он может использоваться в бенчмарках для проверки новых моделей, а также для изучения проблем, связанных с несовпадением модальностей. Возможно, эта работа может привести к новым алгоритмам, которые будут более эффективно обрабатывать мультимодальные данные. Кроме того, VGGSounder может быть применим в различных областях, таких как аудио-визуальная синтезированная реальность, устройства с аудио-визуальным взаимодействием, и мультимодальная аналитика. ## Выводы Мы представили VGGSounder, переоцененную многомерную метку для VGGSound, которая оптимизирована для точной оценки аудио-визуальных моделей. Наши исследования выявили недоста

Annotation:

The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSound dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSound, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce V...

ID: 2508.08237v2 cs.MM, cs.AI, cs.SD

arXiv PDF

📄 VGGSounder: Audio-Visual Evaluations for Foundation Models

2025-08-13

Авторы:

Daniil Zverev, Thaddäus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

#### Контекст Аудио-визуальные фонд-модели становятся важным инструментом для объединения данных из разных чувств. Однако для их эффективного использования необходима надежная оценка их мультимодального понимания. Несмотря на популярность VGGSounder-датасета в качестве бенчмарка для оценки классификации аудио-визуальных данных, его имеются существенные ограничения. Эти ограничения включают неполную метканию, частичное перекрытие классов и несоответствие модальностей. Эти проблемы деформируют оценку возможностей моделей по распознаванию звука и видео. #### Метод Мы предлагаем VGGSounder, новый аудио-визуальный тестовый набор, который является расширением VGGSound. Данный набор был тщательно переоценен и снабжен подробными метками модальностей, позволяющими проводить точные анализы по отдельности силы каждой модальности. Мы также предлагаем новый метрику, "мешанина модальностей", которая позволяет выявлять ограничения моделей при добавлении дополнительных входных модальностей. #### Результаты Исследования проводились на основе VGGSounder-датасета. Мы проанализировали использование аудио-визуальных моделей и их восприятие разных модальностей. Отчёт о результатах включал анализ полученных показателей и сравнения с другими моделями. Наша метрика "мешанина модальностей" позволила выявить сильные и слабые стороны построенных моделей. #### Значимость Предлагаемый набор данных и методы тестирования открывают новые горизонты для эффективного оценивания фондовых аудио-визуальных моделей. Такие наборы данных являются важной инструментовой базой для развития моделей, которые понимают синергетически данные из разных чувств. В целом, достижение VGGSounder-датасета может способствовать развитию широкого спектра приложений, включая робототехнику, медицину, аудио-визуальные системы видеонаблюдения. #### Выводы Мы установили, что VGGSounder является значительным улучшением для понимания ограничений и сил фондовых моделей аудио-визуального характера. Наш рабочий набор данных и метрика "мешанина модальностей" могут стать ключевыми инструментами для будущих исследований. В будущем мы планируем расширить VGGSounder, включив более наборов задач и сценариев, чтобы обеспечить более глубокое понимание мультимодальных моделей.

Annotation:

The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSounder dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSounder, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introdu...

ID: 2508.08237v1 cs.MM, cs.AI, cs.SD

arXiv PDF

📄 LUST: A Multi-Modal Framework with Hierarchical LLM-based Scoring for Learned Thematic Significance Tracking in Multimedia Content

2025-08-09

Авторы:

Anderson de Lima Luiz

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире, где мультимедийный контент стал неотъемлемой частью общественного и профессионального общения, ключевой задачей является эффективный анализ и интерпретация такого контента в соответствии с пользовательскими потребностями. Одним из сложных аспектов является определение тематического значения отдельных сегментов видео, особенно когда речь идет о долгом или сложном контенте. Традиционные подходы, основанные на простых ключевых словах или ручном анализе, часто не могут обеспечить достаточно глубокого понимания и контекстуализации. В этой связи становится очевидной необходимость разработки инструментов, которые могут автоматически определять и квантифицировать тематическую релевантность различных сегментов видео контента в соответствии со специфическими пользовательскими критериями. Такая задача требует интеграции мультимодальных данных, включая визуальные и аудиовыходы, а также текстового контента, полученного из аудиодорожки с помощью технологий Automatic Speech Recognition (ASR). Дополнительным вызовом является необходимость создания методологии, которая не только определяет релевантность каждого сегмента, но и учитывает временную прогрессию тематических элементов. Такой подход позволяет получать более глубокое понимание динамики тематического контента и способность модели адаптироваться к изменяющимся тематическим контекстам. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье представлена модель LUST (Learned User Significance Tracker), которая предназначена для анализа видеоконтента и определения тематической релевантности его сегментов в соответствии с пользовательским описанием. LUST использует мультимодальный подход, который сочетает визуальные данные из видеокадров и текстовую информацию, полученную из аудиодорожки с помощью ASR. Ключевой момент модели заключается в использовании двухэтапного метода оценки релевантности. На первом этапе производится оценка "прямой релевантности" ($S_{d,i}$), где каждый сегмент видео оценивается на основе непосредственного соответствия визуальных и аудиовыходов заданной тематике. На втором этапе производится оценка "контекстуальной релевантности" ($S_{c,i}$), где модель учитывает временную прогрессию тематических элемментов, что позволяет модели лучше понимать динамику развития тематики. LUST также использует Large Language Models (LLMs) для того, чтобы обеспечить более точную и контекстуализированную оценку релевантности. Этот подход позволяет получить более глубокий и точный анализ, особенно когда речь идет о сложных и многоуровневых видеоконтентах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены эксперименты, в которых были использованы различные видеоданные с различными уровнями сложности и тематической составляющей. Для каждого видео была получена оценка релевантности с помощью LUST, и результаты были сравнены с ручным анализом и другими автоматизированными методами. Результаты показали, что LUST обеспечивает высокую точность в определении тематической релевантности, особенно при использовании контекстуальной модели. Кроме того, модель показала способность адаптироваться к изменяющимся тематическим контекстам, что делает ее особенно полезной для анализа длинных и сложных видео. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LUST может быть применен в различных областях, включая образование, медиа-анализ, и мониторинг социальных медиа. Он позволяет автоматизировать процесс анализа видеоконтента, что может существенно сократить время и затраты, связанные с ручным анализом. Кроме того, модель может быть использована для создания адаптивных систем, которые могут подстраиваться под потребности пользователя в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LUST представляет собой инновационный подход к анализу видеоконтента, который обеспечивает более глубокое понимание тематической релевантности. Будущие исследования могут сосредоточиться на улучшении модели для работы с более сложными видеоконтентами, а также на интеграции дополнительных модальностей, таких как текстовые данные из соц

Annotation:

This paper introduces the Learned User Significance Tracker (LUST), a framework designed to analyze video content and quantify the thematic relevance of its segments in relation to a user-provided textual description of significance. LUST leverages a multi-modal analytical pipeline, integrating visual cues from video frames with textual information extracted via Automatic Speech Recognition (ASR) from the audio track. The core innovation lies in a hierarchical, two-stage relevance scoring mechan...

ID: 2508.04353v1 cs.MM, cs.AI, 68T07

arXiv PDF

📄 JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering

2025-08-09

Авторы:

Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan Ouyang, Zhexin Zhang, Hongning Wang, Minlie Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Многомодальные большие языковые модели (MLLMs) становятся все более распространенными в различных приложениях, но их безопасность остается критическим вопросом. Одним из основных угроз являются **jailbreak-атаки**, направленные на обход систем безопасности и фильтров, чтобы получить нецензурные или вредные ответы. Доныне большая часть исследований в этой области сосредоточена на максимизации **attack success rate (ASR)**, то есть успешности обхода фильтров. Однако этот подход часто игнорирует качество самих генерируемых ответов. Даже если атака удается, генерируемые ответы могут не соответствовать настоящей цели атакующего, что приводит к низкому уровню **злонамеренного контента**. Эта проблема особенно актуальна в контексте современных MLLMs, где сочетание текста и изображений требует более глубокого понимания интеграции мультимодальных компонентов. Традиционные методы атак часто используют только текстовые промпты, не используя потенциал визуальных компонентов для улучшения результатов. Недостаток комплексного подхода к оптимизации визуальных и текстовых компонентов приводит к неэффективности атак. Данная работа предлагает решение этой проблемы, представляя метод **JPS** (Jailbreak MLLMs with Collaborative Visual Perturbation and Textual Steering), который интегрирует визуальные и текстовые компоненты для повышения качества и эффективности атак. Целью является не только обход систем безопасности, но и обеспечение высокого уровня соответствия ответов цели атакующего. ## ПРЕДЛОЖЕННЫЙ МЕТОД **JPS** представляет собой инновационный подход, который сочетает **target-guided adversarial image perturbations** (адверасарные визуальные изменения) и **steering prompt** (текстовое направление запроса) в единой координированной стратегии. Алгоритм оптимизирует эти компоненты взаимодействующим образом для максимизации эффективности атаки. 1. **Визуальная компонента**: JPS применяет адверасарные изменения к входящим изображениям, которые направлены на обход систем безопасности MLLMs. Эти изменения генерируются с помощью целевого руководства, что позволяет эффективно манипулировать восприятием модели. 2. **Текстовая компонента**: "Steering prompt" генерируется с помощью многоагентной системы, которая оптимизирует текстовый запрос таким образом, чтобы он руководил генерацией ответа моделью в соответствии с целями атакующего. Два компонента (визуальный и текстовый) проходят процесс **итеративной координированной оптимизации**, что позволяет достичь высокой эффективности атаки. Этот подход отличается от традиционных методов, которые обычно работают только с одним типом компонента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода JPS были проведены эксперименты на различных MLLMs и наборах данных. Результаты показывают, что JPS достигает рекордных показателей в **ASR** (Attack Success Rate) и **MIFR** (Malicious Intent Fulfillment Rate) по сравнению с предшествующими методами. 1. **Наборы данных**: Исследование проводилось на различных бенчмарках, включая стандартные датасеты для тестирования MLLMs. 2. **Метрики**: Были использованы две основные метрики: - **ASR**: Мера успешности обхода систем безопасности. - **MIFR**: Новая метрика, оценивающая качество генерируемых ответов с точки зрения выполнения цели атакующего. Она использует Reasoning-LLM для оценки соответствия ответов цели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод JPS имеет значительное практическое применение в области безопасности искусственного интеллекта. Он позволяет оценить уязвимости MLLMs и разработать более надежные методы защиты. Кроме того, JPS может быть использован для: - **Тестирования безопасности MLLMs** в реальных условиях. - **Обнаружения уязвимостей** в существующих системах фильтрации контента. - **Разработке усовершенствованных методов защиты** от атак на мультимодальные модели. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод **JPS**, который устанавливает новые стандарты в области атак на MLLMs, обеспечивая высокий уровень качества и соответствия цели атакующего. Будущие исследования могут фокусироваться на улучшении методов защиты MLLMs, а также на разработке новых метрик для оценки качества генерируемых ответов. Кроме того, дальнейшее исследование может включать в себя исследование других мультимодальных компонентов, таких как видео и аудио, для создания более комплексных методов атак и защиты.

Annotation:

Jailbreak attacks against multimodal large language Models (MLLMs) are a significant research focus. Current research predominantly focuses on maximizing attack success rate (ASR), often overlooking whether the generated responses actually fulfill the attacker's malicious intent. This oversight frequently leads to low-quality outputs that bypass safety filters but lack substantial harmful content. To address this gap, we propose JPS, \underline{J}ailbreak MLLMs with collaborative visual \underli...

ID: 2508.05087v1 cs.MM, cs.AI, cs.CL, cs.CR, I.2.7; K.4.1; K.6.5

arXiv PDF

📄 Embedding Alignment in Code Generation for Audio

2025-08-08

Авторы:

Sam Kouteili, Hiren Madhu, George Typaldos, Mark Santolucito

## КОНТЕКСТ И ПРОБЛЕМАТИКА Лингвистически моделированные генеративные модели (LLM) открыли новые горизонты в области творческого кодирования, предлагая упрощенный доступ к синтаксически сложному коду. Особенно в области лайв-кодинга, где музыкальные идеи часто требят быстрого преобразования в код, LLMs могут помочь пользователям сосредоточиться на структирных элементах, а не на технических деталях. Однако, несмотря на этот потенциал, существует ряд проблем, связанных с генерацией уникального и разнообразного кода. Традиционные модели кода генерации страдают от недостатка разнообразия в предложенных решениях, что может ограничивать креативные возможества пользователей. Кроме того, эти модели не способны непосредственно связать сгенерированный код с результирующим аудио, что создает препятствие для понимания как кода влияет на финальный звук. Эта проблема особенно критична в контексте музыкального творчества, где важна точная корреляция между кодом и аудиовыходом. Для решения этой проблемы, необходимо изучить связь между кодовыми и аудио-вложениями (embeddings) в пространстве представлений. Если можно было бы научиться предсказывать, как код будет влиять на аудио, это бы позволило создавать более разнообразные и музыкально значимые варианты кода. Таким образом, целью данного исследования является разработка модели, которая может выравнивать кодовые и аудио-вложения, обеспечивая более насыщенные музыкальные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы, авторы предлагают модель, которая выравнивает кодовые и аудио-вложения, создавая "кодо-аудио" алгоритм выравнивания. Эта модель основывается на идее того, что код может быть представлен в виде вложений (embeddings) в многомерном пространстве, где каждое вложение соответствует определенному звуковому выходу. Модель состоит из двух основных компонентов: сначала, она использует код для предсказания аудио-вложений, а затем выравнивает эти вложения, чтобы создать более диверсифицированные варианты кода. Для этого, исследователи используют нейронные сети, которые обучаются на данных, содержащих пары кода и соответствующих им аудио-выходов. Ключевым моментом в этом подходе является то, что модель не просто генерирует код, но и предсказывает, как этот код будет влиять на аудио. Это позволяет пользователям получать не только код, но и понимать, как он будет звучать. Для достижения этой цели, исследователи также используют техники построения топологии пространства вложений, чтобы понять, как код и аудио соотносятся друг с другом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода, исследователи провели ряд экспериментов. Они использовали набор данных, состоящий из пар кода и соответствующих аудиозаписей, для обучения модели. Данные были сборлены из различных источников, включая репозитории кода и музыкальные проекты, чтобы обеспечить разнообразие и представительность. В ходе экспериментов, исследователи измерили точность предсказаний модели, а также разнообразие сгенерированных кодов. Результаты показали, что модель успешно выравнивала кодовые и аудио-вложения, обеспечивая более разнообразные варианты кода. Кроме того, модель показала высокую точность в предсказании аудио-вложений, что подтвердило эффективность предложенного подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкие практические применения в области творческого кодирования, особенно в лайв-кодинге. Он позволяет музыкантам и разработчикам создавать более разнообразные и творческие музыкальные композиции, не тратя время на рутинные задачи кодирования. Благодаря возможности предсказывать аудио-выходы на основе кода, пользователи могут быстро экспериментировать с различными вариантами, что ускоряет процесс творчества. Кроме того, этот подход может быть использован в областях, где необходимо создавать код для аудио-ориентированных приложений, таких как игры, виртуальная реальность и мультимедиа. Он также может быть полезен в обучении, помогая студентам и начинающим разработчикам понять связь между кодом и аудио. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, данное исследование демонстрирует, что выравнивание кодовых и аудио-вложений может значительно улучшить процесс генерации кода для музыкальных приложений. Модель, предложенная авторами, не только повышает разнообразие сгенерированного кода, но и обеспечивает более глубокое понимание того, как код влияет на аудио. В будущем, этот подход может быть расширен для работы с более сложными музыкальными структурами и для создания еще более точных моделей выравнивания. Также, исследователи могут рассмотреть возможность интеграции этого метода с другими генеративными моделями, чтобы создавать еще более инновационные решения для творческого кодирования.

Annotation:

LLM-powered code generation has the potential to revolutionize creative coding endeavors, such as live-coding, by enabling users to focus on structural motifs over syntactic details. In such domains, when prompting an LLM, users may benefit from considering multiple varied code candidates to better realize their musical intentions. Code generation models, however, struggle to present unique and diverse code candidates, with no direct insight into the code's audio output. To better establish a re...

ID: 2508.05473v1 cs.MM, cs.AI, cs.SD, eess.AS

arXiv PDF

1
2
3

Показано 21 - 28 из 28 записей