📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Chiori Hori, Yoshiki Masuyama, Siddarth Jain, Radu Corcodel, Devesh Jha, Diego Romeres, Jonathan Le Roux

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Human-robot collaboration towards a shared goal requires robots to understand human action and interaction with the surrounding environment. This paper focuses on human-robot interaction (HRI) based on human-robot dialogue that relies on the robot action confirmation and action step generation using multimodal scene understanding. The state-of-the-art approach uses multimodal transformers to generate robot action steps aligned with robot action confirmation from a single clip showing a task comp...
ID: 2511.17335v1 cs.RO, cs.CL, cs.CV, cs.SD, eess.AS
Авторы:

Kranti Kumar Parida, Omar Emara, Hazel Doughty, Dima Damen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Humans excel at multisensory perception and can often recognise object properties from the sound of their interactions. Inspired by this, we propose the novel task of Collision Sound Source Segmentation (CS3), where we aim to segment the objects responsible for a collision sound in visual input (i.e. video frames from the collision clip), conditioned on the audio. This task presents unique challenges. Unlike isolated sound events, a collision sound arises from interactions between two objects, a...
ID: 2511.13863v2 cs.CV, cs.SD, eess.AS
Авторы:

Kranti Kumar Parida, Omar Emara, Hazel Doughty, Dima Damen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Humans excel at multisensory perception and can often recognise object properties from the sound of their interactions. Inspired by this, we propose the novel task of Collision Sound Source Segmentation (CS3), where we aim to segment the objects responsible for a collision sound in visual input (i.e. video frames from the collision clip), conditioned on the audio. This task presents unique challenges. Unlike isolated sound events, a collision sound arises from interactions between two objects, a...
ID: 2511.13863v1 cs.CV, cs.SD, eess.AS
Авторы:

Chetwin Low, Weimin Wang, Calder Katyal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Audio-video generation has often relied on complex multi-stage architectures or sequential synthesis of sound and visuals. We introduce Ovi, a unified paradigm for audio-video generation that models the two modalities as a single generative process. By using blockwise cross-modal fusion of twin-DiT modules, Ovi achieves natural synchronization and removes the need for separate pipelines or post hoc alignment. To facilitate fine-grained multimodal fusion modeling, we initialize an audio tower wit...
ID: 2510.01284v1 cs.MM, cs.CV, cs.SD, eess.AS
Авторы:

Petr Grinberg, Eric Bezzam, Paolo Prandoni, Martin Vetterli

## Контекст В настоящее время цифровая система хранения и передачи данных находится в критической стадии развития. Это привело к росту значимости защиты конфиденциальных данных, в том числе аудиозаписей. Несмотря на широкое развитие технологий защиты, шифрование аудиоданных в основном основывается на сигнальных процессинговых методах или программных решениях, внедренных в железо. LenslessMic представляет собой инновационный подход к этим проблемам, используя линсосовую компьютерную иммиджингу для шифрования аудио. Этот проект предлагает решение для защиты аудиоданных, которое может быть использовано во многих сферах, таких как безопасность информации, медицинская техника и коммерческая сфера. ## Метод LenslessMic использует линсосовую компьютерную иммиджингу, которая использует разрешение маленькой камеры для захвата изображения сигнала. Для шифрования аудиосигнала используется устройство, которое захватывает сигнал и выполняет шифрование в реальном времени. Это происходит благодаря тому, что изображение сигнала шифруется с помощью матрицы или физического ограничения. Это подход, который позволяет достичь высокой степени безопасности и использовать полученные данные для различных задач, включая аутентификацию и защиту личных данных. ## Результаты Проект LenslessMic протестирован на небольшом устройстве на базе Raspberry Pi, что позволило проверить его на практике. Для этого были использованы различные аудиозаписи, которые были зашифрованы и отпечатаны с помощью линсосового камеры. Результаты показали, что LenslessMic обеспечивает высокую степень защиты данных, имеет лоу-кость и может быть использовано для разных типов аудио. Данные, полученные в результате тестирования, доступны в открытых источниках, что дает возможность продолжить развитие этого подхода. ## Значимость LenslessMic может быть применен в разных сферах, включая безопасность данных, медицинскую технику, интеллектуальную собственность. Он обеспечивает высокую степень защиты аудиоданных, а также помогает улучшить их качество. Данный подход может быть усовершенствован с помощью более продвинутого оборудования и новых методов шифрования, что позволит повысить его эффективность. LenslessMic также может стать основой для развития новых технологий в сфере безопасности и аудиоданных. ## Выводы LenslessMic представляет собой эффективное решение для шифрования и аутентификации аудиоданных. Он может быть задействован для защиты конфиденциальных данных и улучшить качество шифрования. Благодаря своей простоте и низкой стоимости, LenslessMic может быть использовано в различных сферах. Дальнейшим направлением
Annotation:
With society's increasing reliance on digital data sharing, the protection of sensitive information has become critical. Encryption serves as one of the privacy-preserving methods; however, its realization in the audio domain predominantly relies on signal processing or software methods embedded into hardware. In this paper, we introduce LenslessMic, a hybrid optical hardware-based encryption method that utilizes a lensless camera as a physical layer of security applicable to multiple types of a...
ID: 2509.16418v1 cs.CR, cs.AI, cs.CV, cs.SD, eess.AS
Авторы:

Kam Man Wu, Zeyue Tian, Liya Ji, Qifeng Chen

## Контекст Восстановление пропущенных частей видео и аудио является ключевым заданием в области мультимедиа-редактирования. Однако точное удаление объектов и соответствующих им звуков из видео, не вредя остальной части сцены, остается сложной проблемой. Традиционные подходы часто не удавались в полной синхронизации между видео и аудио. В этом исследовании мы предлагаем VAInpaint — новую методологию, которая объединяет мощь машинного обучения, видео- и аудио-инпейнтинга, чтобы решить эту проблему. ## Метод VAInpaint состоит из нескольких модулей, которые обрабатывают видео и аудио с разными уровнями детализации. На первом этапе используется модель сегментации для генерации масок, отражающих области для удаления. Затем, модель inpainting видео восстанавливает удаленные области, принимая во внимание маски. Для аудио-входа, мы разработали текстово-управляемую модель сепарации, которая использует глобальные и региональные описания, сгенерированные глубокими моделями текстового понимания (LLM). Модель LLM обрабатывает общую информацию о сцене и разбирает детали регионального контента. Наконец, все входы обрабатываются моделью inpainting видео и аудио, чтобы восстановить пропущенные части. ## Результаты Мы проверили нашу модель на широком диапазоне сцен и задач видео- и аудио-вставок. Наши эксперименты показали, что VAInpaint достигает результатов, которые соответствуют или превосходят текущие лучшие решения в области inpainting. Мы также проверили эффективность нашей модели в разных условиях, включая видео с большим количеством движения и сложным аудио-содержимым. Особое внимание уделено тому, что модель VAInpaint обеспечивает высокую синхронизацию между видео и аудио. ## Значимость Наше решение может применяться в различных областях, таких как редактирование видео, виртуальная реальность, и музыкальное видео. Оно предлагает улучшенную точность и синхронизацию, что делает его полезным в различных профессиональных приложениях, включая трансляции, рекламу и домашнее видео-редактирование. Метод VAInpaint также открывает новые возможности для видео-анализа, динамического контента, и искусственного интеллекта в мультимедиа. ## Выводы Мы предлагаем VAInpaint — новую мощную методологию для видео- и аудио-вставок, которая использует модели LLM для генерации текстовых запросов. Мы продемонстрировали, что наш подход является эффективным и надежным в различных условиях, показав высокую точность и качество восстановления. В следующих исследованиях мы планируем расширить нашу модель для работы с более сложными видео и а
Annotation:
Video and audio inpainting for mixed audio-visual content has become a crucial task in multimedia editing recently. However, precisely removing an object and its corresponding audio from a video without affecting the rest of the scene remains a significant challenge. To address this, we propose VAInpaint, a novel pipeline that first utilizes a segmentation model to generate masks and guide a video inpainting model in removing objects. At the same time, an LLM then analyzes the scene globally, wh...
ID: 2509.17022v1 cs.MM, cs.CV, cs.SD, eess.AS
Авторы:

Sri Raksha Siva, Nived Suthahar, Prakash Boominathan, Uma Ranjan

## Контекст Осложнения в речи и голосовые расстройства значительно сказываются на качестве жизни и общении, требуя оперативного и точного диагноза. Несмотря на доступность стандартных методов, таких как ларингоскопия, их применение часто ограничивается техническими и доступностью аппаратуры. Данное исследование рассматривает возможности использования голосовых сигналов для диагностики голосовых расстройств с помощью машинного обучения. Это может стать перспективным алгоритмом для раннего выявления заболеваний, улучшения здоровья и нейродиагностики. База данных Saarbrücken Voice Database, содержащая сигналы голоса, станет основой для проведения экспериментов. ## Метод Для решения проблемы используется нейронный архитектурный подход, основанный на рекуррентных нейронных сетях (RNN), включая LSTM, и возможностях ансамблей. Данные обрабатываются с помощью физических признаков, таких как Хёлдер и Херст-экспоненты, а также с использованием звуковых признаков, таких как MFCC, Хрома и Mel-спектрограммы. Методы аугментации данных, включая питочный сдвиг и добавление гауссовского шума, применяются для повышения универсальности модели. Для лучшей качественной обработки сигнала применяются чистящие алгоритмы. Такой подход позволяет построить мощную модель, выявляющую голосовые расстройства. ## Результаты Проведены эксперименты с разными моделями, включая LSTM, Attention-LSTM и другие варианты, для сравнения качества распознавания. Использовались тренировочные и тестовые выборки из Saarbrücken Voice Database. Результаты показали, что модель Attention-LSTM, задействованная в комбинации с признаками Хёлдер и Херст, показала самый высокий показатель точности. Этот подход демонстрирует высокую точность в различных скрытых режимах расстройств голоса. Также было продемонстрировано, что аугментационные методы могут значительно повысить общую точность модели. ## Значимость Разработанная модель представляет собой невинный алгоритм для раннего выявления голосовых расстройств. Это предоставляет возможность создания инструментов для автоматизированной диагностики, которые могут использоваться в нейродиагностике и медицинских приложениях. Повышение точности диагностики может улучшить качество лечения и эффективность медицинского обслуживания. Будущим направлением развития является расширение модели для широкого спектма голосовых расстройств. ## Выводы Результаты доказывают эффективность предложенного подхода в диагностике голосовых расстройств с помощью голосовых сигналов. Открывается путь к автоматизированным и доступным методам диагност
Annotation:
Voice disorders significantly affect communication and quality of life, requiring an early and accurate diagnosis. Traditional methods like laryngoscopy are invasive, subjective, and often inaccessible. This research proposes a noninvasive, machine learning-based framework for detecting voice pathologies using phonation data. Phonation data from the Saarbr\"ucken Voice Database are analyzed using acoustic features such as Mel Frequency Cepstral Coefficients (MFCCs), chroma features, and Mel sp...
ID: 2508.07587v1 cs.CV, cs.SD, eess.AS
Авторы:

Junxiao Xue, Xiaozhen Liu, Xuecheng Wu, Xinyi Yin, Danlei Huang, Fei Yu

## Контекст Аудио-визуальная речевая распознавание (AVSR) широко применяется для улучшения распознавания речи в шумных условиях, слиянием сигналов аудио и визуальных модальностей. Однако, большинство существующих подходов ограничиваются простыми моделями симметричного объединения модальностей или единонаправленным усилением, что приводит к неэффективной обработке характерных асимметрий во входных данных. Это снижает работу моделей в условиях, где аудио и визуальные сигналы имеют разные уровни важности. Наша модель AD-AVSR предлагает новую архитектуру, основанную на бинарной модальной поддержке, чтобы улучшить глубину и точность распознавания в таких ситуациях. ## Метод Мы предлагаем фреймворм AD-AVSR, основанный на бинарной модальной расширяющей стратегии. Аудио-сигнал обрабатывается двумя разными потоками, чтобы охватить разные аспекты сигнала, и искусственно сформировать неоднородность, которая помогает в будущем совместном использовании аудио и визуальных модальностей. Модули, используемые для улучшения, включают: Audio-aware Visual Refinement Module, который улучшает визуальные сигналы, и Cross-modal Noise Suppression Masking Module, который улучшает аудио-сигналы с помощью визуальных указателей. Это создает замкнутый цикл обработки, в котором аудио и визуальные модальности взаимодействуют друг с другом. Для улучшения корреляции мы также применяем механизм уточненного выбора, который отсеивает неудачные пары. ## Результаты Мы проводили эксперименты на двух наборах данных: LRS2 и LRS3. Наши результаты показали, что AD-AVSR превышает существующие методы в роде noise robustness и speech recognition accuracy. Мы также провели анализ дополнительных экспериментов, подтверждающих эффективность нашей модели в условиях асимметричных входных данных. Наша модель демонстрирует значительное улучшение сравнительно с однонаправленными подходами. ## Значимость Предложенная модель AD-AVSR имеет широкое применение в сценариях, где качество распознавания речи требует высокой точности в шумных условиях, таких как беспроводные устройства, звонки в шумных местах и видеоконференции. Модель эффективно обрабатывает асимметричные сигналы и показывает высокую устойчивость к шумам. Благодаря своей архитектуре, AD-AVSR может быть применена в различных приложениях, включая видео-сенсорные системы, автоматическое распознавание речи в разговорных ситуациях и улучшение речевых интерфейсов в системах контроля голосом. ## Выводы Мы представили новую модель AD-AVSR для AVSR, основанную на бинарной модальной поддержке. Наши эксперименты показали, что она превосходи
Annotation:
Audio-visual speech recognition (AVSR) combines audio-visual modalities to improve speech recognition, especially in noisy environments. However, most existing methods deploy the unidirectional enhancement or symmetric fusion manner, which limits their capability to capture heterogeneous and complementary correlations of audio-visual data-especially under asymmetric information conditions. To tackle these gaps, we introduce a new AVSR framework termed AD-AVSR based on bidirectional modality enha...
ID: 2508.07608v1 cs.MM, cs.CV, cs.SD, eess.AS
Авторы:

Nicholas Klein, Hemlata Tak, James Fullwood, Krishna Regmi, Leonidas Spinoulas, Ganesh Sivaraman, Tianxiang Chen, Elie Khoury

## Контекст В последние годы появились совершенно новые стейт-оф-артные технологии, позволяющие генерировать аудио и видео. Этот рост новых возможностей подкрепляет необходимость в мощных методах для обнаружения глубоких подделок (deepfakes), которые могут использоваться для распространения лживых информационных потоков, нарушения чести выборов или манипуляции общественным мнением. Группа авторов отправилась в АСМ 1М Дипфейкс Детектинг Челлендж, где их методы показали лучшие результаты в задаче локализации действий во времени и занимали четвертое место в задаче классификации на тестовой части датасета. Необходимость в эффективных методах обнаружения и локализации глубоких подделок является главной мотивацией для этого исследования. ## Метод Методы, представленные в данной работе, основываются на сочетании аудио- и видео-анализа для обнаружения глубоких подделок. Авторы предлагают нейросетевую модель, которая объединяет аудио- и видео-фичи в единое целое, используя концепцию совместного изучения многомодальных данных. Обнаружение глубоких подделок осуществляется с помощью распознавания характерных шаблонов в аудио- и видео-данных. Для обеспечения точности и локальности, авторы использовали архитектуру с несколькими скалярными выходами, которая позволяет классифицировать отдельные части видео и аудио, а также оценивать влияние локальных изменений. Для обучения использовались данные, которые были собраны с различных источников, включая сети Deepfake Detection Challenge и YFCC-15M. ## Результаты Результаты исследования показали, что предложенные методы демонстрируют высокую точность в обнаружении глубоких подделок. Задача классификации в TestA split датасета была выполнена с оценкой метрики F1-score, которая достигла значения 0.94. В тесте локализации времени, проведенном в рамках ACM 1M Deepfakes Detection Challenge, метод показал наилучшие результаты, обнаружив локальные изменения с высокой точностью. Эти результаты подтверждают эффективность использованных методов и архитектуры. ## Значимость Предложенные методы могут использоваться в различных областях, таких как социальные сети, медиа, правоохранительные органы и юридические системы. Они могут помочь в борьбе против лживых информационных потоков, защиты интеллектуальной собственности и ограничения ущерба, нанесенного системам, которые опираются на видео- и аудио-контент. Эффективность методов показывает, что их можно применять для финтех-сервисов, где аутентификация по лицу или голосу является ключевым фактором, а также для журналист
Annotation:
The field of visual and audio generation is burgeoning with new state-of-the-art methods. This rapid proliferation of new techniques underscores the need for robust solutions for detecting synthetic content in videos. In particular, when fine-grained alterations via localized manipulations are performed in visual, audio, or both domains, these subtle modifications add challenges to the detection algorithms. This paper presents solutions for the problems of deepfake video classification and local...
ID: 2508.08141v1 cs.CV, cs.SD, eess.AS
Авторы:

Mahnoor Fatima Saad, Ziad Al-Halah

**Резюме** В статье предлагается задача материал-контролируемой генерации акустических профилей для индорной сцены, где, при данных аудио-визуальных характеристиках, необходимо сгенерировать целевой Room Impulse Response (RIR), основанный на пользовательских материальных спецификациях. Для решения этой задачи разработана новая модель на основе кодировщика-декодира, которая позволяет гибко менять материалы в процессе инференса и генерировать RIR, учитывая эти изменения. Для поддержки этой задачи был создан новый датасет Acoustic Wonderland, предназначенный для развития и оценки подходов к материал-конспекту RIR. Исследования показали, что предложенная модель эффективно кодирует информацию о материалах и генерирует высококачественные RIR, превосходя существующие методы. Это открывает новые возможности для симуляции и генерации акустических сцен.
Annotation:
How would the sound in a studio change with a carpeted floor and acoustic tiles on the walls? We introduce the task of material-controlled acoustic profile generation, where, given an indoor scene with specific audio-visual characteristics, the goal is to generate a target acoustic profile based on a user-defined material configuration at inference time. We address this task with a novel encoder-decoder approach that encodes the scene's key properties from an audio-visual observation and generat...
ID: 2508.02905v1 cs.CV, cs.SD, eess.AS
Показано 1 - 10 из 13 записей