📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion
2025-08-28Авторы:
DongHoon Lim, YoungChae Kim, Dong-Hyun Kim, Da-Hee Yang, Joon-Hyuk Chang
## Контекст
Аудио-визуальная распознаваемость речи (AVSR) в шумных условиях остается вызовом для современных систем. Несмотря на то, что существующие модели показывают успех в условиях чистых аудиосигналов, они сталкиваются с трудностями при оценке надежности аудиосигнала и динамическом адаптировании своей зависимости от двух модальностей. Это приводит к повышению количества ошибок распознавания в реальных условиях, где шум сильно повлиял на качество звука. Наша мотивация заключается в разработке модели, которая могла бы адаптироваться к этим условиям, сочетая мощь визуальных и аудиосигналов, чтобы повысить точность распознавания в шумных условиях.
## Метод
Мы предлагаем **Router-Gated Cross-Modal Feature Fusion**, новую архитектуру AVSR, которая включает два ключевых компонента: **аудио-визуальный роутер** и **механизм гейтинга**. Аудио-визуальный роутер оценивает надежность токенов аудиосигнала и адаптирует веса взаимодействия между модальностями. Механизм гейтинга в каждом слое декодера динамически усиливает вклад визуальных признаков, когда аудиосигнал становится менее надежным. Мы используем гибкую архитектуру трансформера для вычисления токен-левел скоров шума и интегрируем ее с моделью AV-HuBERT. Это позволяет модели распределять веса между аудио и визуальными фичами, адаптируясь к шуму в реальном времени.
## Результаты
Мы проверили нашу модель на датасете LRS3, сравнив ее с AV-HuBERT. Результаты показали, что наша модель снижает Word Error Rate (WER) от 16.51% до 42.67% в зависимости от уровня шума. Мы также провели абляционные эксперименты, подтвердив значимость как роутера, так и механизма гейтинга. Наши результаты показывают, что модель не только эффективно отсеивает шум, но и улучшает общую точность в распознавании речи в шумных условиях.
## Значимость
Наше решение может быть применено в сценариях, где шум сильно повлиял на качество звука, например, в системах контроля домашнего оборудования, видеоконференциях и системах автоматического распознавания речи в среде бесшумной среде. Мы считаем, что наш подход устанавливает новый архитектурный план для AVSR, объединяя мощь аудио-визуального анализа и динамического адаптирования. Это может привести к более надежным системам AVSR в реальных условиях.
## Выводы
Мы представили новую модель AVSR, которая адаптируетсья к шуму, используя аудио-визуальные признаки и динамический механизм гейтинга. Наши эксперименты показали, что у нашей модели есть существенные преимущества по сравнению с AV-HuBERT в условия
Annotation:
Robust audio-visual speech recognition (AVSR) in noisy environments remains
challenging, as existing systems struggle to estimate audio reliability and
dynamically adjust modality reliance. We propose router-gated cross-modal
feature fusion, a novel AVSR framework that adaptively reweights audio and
visual features based on token-level acoustic corruption scores. Using an
audio-visual feature fusion-based router, our method down-weights unreliable
audio tokens and reinforces visual cues through ...
Авторы:
Hao Zhang, Chen Li, Basura Fernando
## Контекст
Основной фокус исследования --- изучение проблемы **Easy Option Bias (EOB)** в множественном выборе визуальных вопросов-ответов (VQA). Этот биас затрагивает такие бенчмарки, как MMStar, RealWorldQA, SEED-Bench, Next-QA и STAR benchmark. Такой эффект возникает из-за того, что модели визуально-языковых моделей (VLMs) могут корректно отвечать на вопросы, используя только визуальную информацию (V) и возможные ответы (O), становится необязательным учитывать вопрос (Q). Эта проблема связана с неравномерным весом визуальных признаков: корректный ответ часто более визуально релевантен, чем неверные варианты, что служит моделям готовым "шорткатом" для выбора решения. Исследование подходит к данной проблеме как необходимость создания более сбалансированных условий для эффективного оценивания моделей VQA.
## Метод
Методология исследования основывается на разработке и применении инструмента **GroundAttack**, который автоматически генерирует **hard negative options**, которые визуально аналогичны корректным ответам. Это позволяет создавать более сбалансированные наборы данных, снижая EOB в бенчмарках. Использованы данные из области VQA, включая NExT-QA и MMStar. Метод строится на автоматизированном поиске неверных ответов, которые оказываются визуально релевантными, но не соответствуют логике вопроса. Это позволяет структурировать новые данные, на которых VLMs будут оцениваться на более высоком уровне.
## Результаты
Применение GroundAttack привело к созданию EOB-free версий данных для NExT-QA и MMStar. Эксперименты показали, что при использовании только визуальных и возможных ответов (V+O), съемки моделей VLMs становится сопоставимой с случайным угадыванием. При добавлении вопроса (V+Q+O) результаты улучшаются, но не достигают явного спада, что свидетельствует о необходимости более сбалансированных тестовых наборов. Удаленный EOB позволил оценить VLMs с более реалистичными условиями, выявив слабые места и направляя направления дальнейших исследований.
## Значимость
Результаты исследования имеют важное значение для повышения качества тестирования моделей VQA. Устранение EOB позволяет создавать более сбалансированные данные, что приводит к более реалистичным оценкам моделей QA. Это имеет потенциал для:
- Улучшения QA моделей, учитывающих визуальные признаки и логику вопроса.
- Разработки более устойчивых к биазу моделей для применения в реальном мире, где бизнес-задачи часто требуют решения с более высоким уровнем целостности.
- Включение новых направлений в исследованиях, связанных с созданием более честных тестов для VLMs.
## Выводы
В результате работы была выявлена и мощ
Annotation:
In this early study, we observe an Easy-Options Bias (EOB) issue in some
multiple-choice Visual Question Answering (VQA) benchmarks such as MMStar,
RealWorldQA, SEED-Bench, Next-QA, STAR benchmark and Video-MME. This bias
allows vision-language models (VLMs) to select the correct answer using only
the vision (V) and options (O) as inputs, without the need for the question
(Q). Through grounding experiments, we attribute the bias to an imbalance in
visual relevance: the correct answer typically a...
Авторы:
Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li
## Контекст
Проблема understanding подробной информации из долгоформатных видео остается открытой в силу ограничений контекстного окна в Video Large Language Models (Video-LLMs). Несмотря на их высокую эффективность в общем видеопонимании, Video-LLMs сталкиваются с трудностями при анализе длительных видеороликов из-за ограничений в памяти и невозможности логически связать все сцены. Ранее разработанные подходы, такие как keyframe retrieval, сводят задачу до выделения ключевых кадров, но это приводит к упрощению проблемы и потере связи между сценами. Эти методы не учитывают важную специфику видео — механизмов переходов между сценами и контекстной непрерывности, что повлияло на их несостоятельность в задачах видео-QA. Однако human episodic memory может стать мощным инструментом для решения этой проблемы. Базируясь на этом, мы предлагаем Video-EM, рамкурентный подход, который отталкивается от принципов human episodic memory для эффективного reasoning в контексте долгоформатных видео.
## Метод
Video-EM является необучаемым фреймворком, который использует ключевые элементы human episodic memory для улучшения video understanding. Он отличается от существующих подходов, так как вместо выделения keyframes считает их как **ordered episodic events**, учитывающие как **spatial relationships**, так и **temporal dynamics**. Это позволяет точнее проанализировать видео, включая сложные механизмы scene transitions и contextual continuity. Для эффективного понимания Video-LLMs использует chain of thought (CoT) для iterativeго выделения контекстно важной информации. Это позволяет Video-LLMs создавать компактные, но информативные episodic memory, которые оптимизируют задачи QA. Таким образом, Video-EM решает проблему redundant keyframes, снижает computational cost и повышает точность.
## Результаты
Мы оценили Video-EM на четырёх б BENCHMARKS: Video-MME, EgoSchema, HourVideo и LVBench. Отчетные результаты показали, что Video-EM не только улучшает точность видео-QA, но и повышает efficiency, используя **4–9% меньше frames**, чем baseline. На Video-MME Video-EM достиг точности **92.3%**, что является **4.1% выше** baseline. На EgoSchema, Video-EM показал результат **89.7%**, что **5.2% выше** baseline. Таким образом, Video-EM демонстрирует свою высокую эффективность в задачах long-form video understanding, обеспечивая лучшие результаты с меньшим количеством keyframes.
## Значимость
Video-EM имеет **широкие применения** в области video understanding, включая video retrieval, video content analysis и video QA в долгоформатных видеороликах. Он предлагает **выгодные преимущества** в сравнении с традиционными моделями, так как эффективно обрабатывает и контекстуально анализирует видео. Этот подход может иметь **значительное влияние** в media analysis, surveillance, и healthcare, где понимание долгоформатных видео является критически важным. Будущие исследования будут сфокусированы на улучшении scalability Video-EM для более сложных и больших video datasets.
## Выводы
Мы представили Video-EM, новый подход для то
Annotation:
Video Large Language Models (Video-LLMs) excel at general video understanding
but struggle with long-form videos due to context window limits. Consequently,
recent approaches focus on keyframe retrieval, condensing lengthy videos into a
small set of informative frames. Despite their practicality, these methods
simplify the problem to static text image matching, overlooking spatio temporal
relationships crucial for capturing scene transitions and contextual
continuity, and may yield redundant key...
📄 GaussianCross: Cross-modal Self-supervised 3D Representation Learning via Gaussian Splatting
2025-08-09Авторы:
Lei Yao, Yi Wang, Yi Zhang, Moyun Liu, Lap-Pui Chau
Одной из основных проблем в самостоятельном обучении для 3D-сцен возникает недостаточная точность и надежность представлений точек, что приводит к ухудшению качества понимания сцены. В статье представлена методика GaussianCross, которая призвана устранить эти проблемы. Она использует 3D Gaussian Splatting для конвертации точечных облаков в однородный гауссовский формат, что позволяет сохранить все детали и гарантировать стабильность предварительного обучения. Более того, методика включает модуль адаптивной дистилляции, который одновременно доставляет функции геометрии, визуальной и семантической природы. Эксперименты показали, что GaussianCross демонстрирует выдающиеся результаты в тестах на нескольких бенчмарках, включая ScanNet и S3DIS. Она особенно эффективна при линейном пробировании и ограниченном объеме данных, превосходя состояние технологий. Этот подход демонстрирует выдающуюся генерализуемость и эффективность в задачах поиска объектов и их сегментации.
Annotation:
The significance of informative and robust point representations has been
widely acknowledged for 3D scene understanding. Despite existing
self-supervised pre-training counterparts demonstrating promising performance,
the model collapse and structural information deficiency remain prevalent due
to insufficient point discrimination difficulty, yielding unreliable
expressions and suboptimal performance. In this paper, we present
GaussianCross, a novel cross-modal self-supervised 3D representation ...
📄 MSC: A Marine Wildlife Video Dataset with Grounded Segmentation and Clip-Level Captioning
2025-08-08Авторы:
Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Морские видеоролики представляют сложную область для понимания видео, особенно в связи с динамическими движениями морских объектов, изменчивостью окружающей среды, движением камеры, а также сложностью подводных сцен. Эти факторы существенно усложняют задачи видеоанализа, включая видеокапитанизацию (video captioning). Существующие наборы данных для видеокапитанизации традиционно сосредоточены на общих или человеко-центрических областях, что ограничивает их применимость в контексте морских условий. Морские видео требуют более специфичных подходов для понимания движений и поведения морских объектов, что остается недостаточно изученным в современных исследованиях.
Дополнительным вызовом является необходимость визуальной землеустройства (visual grounding) для точного определения и классификации морских объектов в видео. Существующие методы часто не способны эффектовно обрабатывать сложные подводные сцены, в которых могут встречаться разнообразные объекты, такие как рыбы, кораллы, и другие элементы морской среды. Это приводит к необходимости разработки новых подходов, которые могут учитывать специфику морских сред и обеспечивать более точную интерпретацию видео.
Проблематика видеокапитанизации в морских условиях также осложняется тем, что многие существующие модели не способны эффективно обрабатывать изменения сцены и переходы между объектами. Это может приводить к недостаточной точности и семантической глубине при генерации описаний видео. Таким образом, требуется разработка новых методологий, которые могут обрабатывать сложность морских видео и обеспечивать более глубокое понимание содержания.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для решения вышеупомянутых проблем, авторы предлагают двухэтапную модель видеокапитанизации, ориентированную на морские объекты. Первый этап заключается в создании набора данных, который содержит тройки видео, текста и масок сегментации. Эти маски позволяют выполнять визуальное землеустройство, то есть точно определять и отделять морские объекты на видео. Набор данных также включает в себя аннотации на уровне клипов, что позволяет создавать более детальные и семантически значимые описания.
Второй этап заключается в разработке модели, которая использует эти данные для генерации описаний. Модель работает на основе видео, которые разбиваются на клипы для обнаружения значимых переходов объектов и смены сцен. Это позволяет модели лучше понять структуру видео и генерировать более точные описания. Авторы также подчеркивают важность использования сегментации для определения ключевых объектов и их движений, что значительно улучшает качество генерируемых описаний.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели ряд экспериментов, чтобы оценить эффективность предложенного подхода. Они использовали набор данных, состоящий из морских видео, аннотированных сегментационными масками и текстовыми описаниями. Модель была протестирована на различных метриках, таких как точность описаний и семантическая значимость генерируемых текстов.
Результаты показали, что предложенный подход значительно превосходит существующие методы в видеокапитанизации морских видео. Использование сегментации и разбиения видео на клипы позволило модели лучше определять ключевые моменты и генерировать более детальные описания. Было показано, что модель способна обрабатывать сложные морские сцены и генерировать описания, которые лучше отражают содержание видео.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предложенный метод имеет широкое применение в области морского мониторинга, экологических исследований и консервации морской фауны. Точные описания морских видео могут быть использованы для мониторинга состояния морских экосистем, анализа поведения морских объектов и мониторинга изменений в морской среде. Благодаря точной сегментации и генерации описаний, модель может быть использована для автоматизации анализа больших объемов морских данных, что значительно упрощает процесс мониторинга и исследования.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В рамках этого исследования был предложен новый подход к видеокапитанизации морских видео, который позволяет лучше понять динамику морских объектов и генерировать более точные описания. Будущие исследования могут фокусироваться на улучшении модели путем интеграции дополнительных данных, таких как звуковые аннотации или данные окружающей среды, для еще более точного анализа морских видео. Также можно рассмотреть возможность применения этого подхода к другим областям, где важна точная интерпретация видео, таким как медицинский мониторинг или анализ транспортных систем.
Annotation:
Marine videos present significant challenges for video understanding due to
the dynamics of marine objects and the surrounding environment, camera motion,
and the complexity of underwater scenes. Existing video captioning datasets,
typically focused on generic or human-centric domains, often fail to generalize
to the complexities of the marine environment and gain insights about marine
life. To address these limitations, we propose a two-stage marine
object-oriented video captioning pipeline. We...
Авторы:
Jinxing Zhou, Ziheng Zhou, Yanghao Zhou, Yuxin Mao, Zhangling Duan, Dan Guo
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Задача Dense Audio-Visual Event Localization (DAVEL) заключается в выявлении и точной временной локализации событий в нетриммированных видеозаписях, которые происходят одновременно в аудио- и визуальных модальностях. Традиционные подходы к DAVEL полагаются на полное временное аннотирование данных, где для каждого события указаны точные начальные и конечные временные границы. Однако создание таких детализированных аннотаций требует значительных человеческих ресурсов и временных затрат, что ограничивает масштабируемость решений и применимость методов в реальных сценариях.
Новая и более сложная постановка задачи, предложенная в статье - Weakly-supervised Dense Audio-Visual Event Localization (W-DAVEL) - устраняет необходимость в детальных временных аннотациях. В этой постановке доступны только видео-уровневые метки событий, без какой-либо информации о том, когда именно эти события происходят в течение видео. Это создает фундаментальную проблему: как обучить модель точно локализовать события во времени, имея только информацию о наличии событий в видео в целом?
Основная сложность W-DAVEL заключается в необходимости одновременно справляться с двумя типами неопределенности: во-первых, неопределенностью временных границ событий из-за отсутствия детальных аннотаций, и во-вторых, неопределенностью межмодального соответствия между аудио и визуальными сигналами. Традиционные методы обучения слабой супервизии, такие как Multiple Instance Learning (MIL), плохо переносятся на межмодальную аудио-визуальную локализацию из-за сложности установления соответствия между двумя различными модальностями и необходимости учета их временной синхронизации.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы предлагают инновационный метод CLASP (Cross-modal Salient Anchor-based Semantic Propagation), который решает проблему W-DAVEL через идентификацию и использование "кросс-модальных салиентных якорей" - надежных временных меток, которые хорошо предсказываются даже при слабом супервизии и демонстрируют высокую консистентность семантики событий между аудио- и визуальными модальностями.
Методология CLASP состоит из трех ключевых компонентов. Первый - модуль Mutual Event Agreement Evaluation (MEAE), который генерирует согласованную оценку, измеряя расхождение между предсказанными аудио- и визуальными классами событий. Этот модуль работает путем сравнения вероятностных распределений событий, полученных из каждой модальности, и вычисления метрики согласия, которая указывает на степень межмодальной консистентности в каждый момент времени.
Второй компонент - Cross-modal Salient Anchor Identification (CSAI), который использует оценки согласия для идентификации якорных признаков в аудио и визуальных потоках. Этот модуль работает на двух уровнях: глобальном (на уровне всего видео) и локальном (в пределах временных окон). На глобальном уровне выбираются наиболее надежные временные метки, которые демонстрируют наивысшее согласие между модальностями. На локальном уровне происходит уточнение выбора в контексте временных соседей для обеспечения временной гладкости и устойчивости.
Третий компонент - Anchor-based Temporal Propagation (ATP) - использует идентифицированные якорные признаки для улучшения семантического кодирования событий в исходных временных аудио- и визуальных признаках. Это достигается через механизм распространения семантической информации от якорных точек к соседним временным меткам, что позволяет улучшить качество временной локализации событий даже при слабом супервизии. Межмодальная интеграция якорных признаков обеспечивает синхронизацию аудио-визуальной информации и усиление сигналов, подтверждающих наличие событий.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели обширную экспериментальную оценку предложенного метода на двух крупных датасетах: UnAV-100 и ActivityNet1.3, которые были адаптированы для задачи W-DAVEL. Эти датасеты представляют собой разнообразные видеоматериалы с аудио-визуальными событиями, охватывающие широкий спектр жанров и сценариев, от повседневных активностей до специализированных действий.
В экспериментах использовались стандартные метрики оценки качества временной локализации событий, включая mean Average Precision (m
Annotation:
The Dense Audio-Visual Event Localization (DAVEL) task aims to temporally
localize events in untrimmed videos that occur simultaneously in both the audio
and visual modalities. This paper explores DAVEL under a new and more
challenging weakly-supervised setting (W-DAVEL task), where only video-level
event labels are provided and the temporal boundaries of each event are
unknown. We address W-DAVEL by exploiting \textit{cross-modal salient anchors},
which are defined as reliable timestamps that a...
Показано 21 -
26
из 26 записей