📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 DeLoad: Demand-Driven Short-Video Preloading with Scalable Watch-Time Estimation

2025-10-23

Авторы:

Tong Liu, Zhiwei Fan, Guanyan Peng, Haodan Zhang, Yucheng Zhang, Zhen Wang, Pengjin Xie, Liang Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Short video streaming has become a dominant paradigm in digital media, characterized by rapid swiping interactions and diverse media content. A key technical challenge is designing an effective preloading strategy that dynamically selects and prioritizes download tasks from an evolving playlist, balancing Quality of Experience (QoE) and bandwidth efficiency under practical commercial constraints. However, real world analysis reveals critical limitations of existing approaches: (1) insufficient a...

ID: 2510.18459v1 cs.MM, cs.AI, eess.IV

arXiv PDF

📄 Taming Modality Entanglement in Continual Audio-Visual Segmentation

2025-10-22

Авторы:

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recently, significant progress has been made in multi-modal continual learning, aiming to learn new tasks sequentially in multi-modal settings while preserving performance on previously learned ones. However, existing methods mainly focus on coarse-grained tasks, with limitations in addressing modality entanglement in fine-grained continual learning settings. To bridge this gap, we introduce a novel Continual Audio-Visual Segmentation (CAVS) task, aiming to continuously segment new classes guide...

ID: 2510.17234v1 cs.MM, cs.AI, cs.CV

arXiv PDF

📄 Human-in-the-Loop Bandwidth Estimation for Quality of Experience Optimization in Real-Time Video Communication

2025-10-16

Авторы:

Sami Khairy, Gabriel Mittag, Vishak Gopal, Ross Cutler

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The quality of experience (QoE) delivered by video conferencing systems is significantly influenced by accurately estimating the time-varying available bandwidth between the sender and receiver. Bandwidth estimation for real-time communications remains an open challenge due to rapidly evolving network architectures, increasingly complex protocol stacks, and the difficulty of defining QoE metrics that reliably improve user experience. In this work, we propose a deployed, human-in-the-loop, data-d...

ID: 2510.12265v1 cs.MM, cs.AI, cs.NI, cs.SY, eess.SY

arXiv PDF

📄 Controllable Audio-Visual Viewpoint Generation from 360° Spatial Information

2025-10-09

Авторы:

Christian Marinoni, Riccardo Fosco Gramaccioni, Eleonora Grassucci, Danilo Comminiello

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The generation of sounding videos has seen significant advancements with the advent of diffusion models. However, existing methods often lack the fine-grained control needed to generate viewpoint-specific content from larger, immersive 360-degree environments. This limitation restricts the creation of audio-visual experiences that are aware of off-camera events. To the best of our knowledge, this is the first work to introduce a framework for controllable audio-visual generation, addressing this...

ID: 2510.06060v1 cs.MM, cs.AI, cs.CV

arXiv PDF

📄 Comparing Contrastive and Triplet Loss: Variance Analysis and Optimization Behavior

2025-10-07

Авторы:

Donghuo Zeng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Contrastive loss and triplet loss are widely used objectives in deep metric learning, yet their effects on representation quality remain insufficiently understood. We present a theoretical and empirical comparison of these losses, focusing on intra- and inter-class variance and optimization behavior (e.g., greedy updates). Through task-specific experiments with consistent settings on synthetic data and real datasets-MNIST, CIFAR-10-it is shown that triplet loss preserves greater variance within ...

ID: 2510.02161v2 cs.MM, cs.AI, cs.LG

arXiv PDF

📄 Comparing Contrastive and Triplet Loss in Audio-Visual Embedding: Intra-Class Variance and Greediness Analysis

2025-10-04

Авторы:

Donghuo Zeng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2510.02161v1 cs.MM, cs.AI, cs.LG

arXiv PDF

📄 CPCLDETECTOR: Knowledge Enhancement and Alignment Selection for Chinese Patronizing and Condescending Language Detection

2025-09-25

Авторы:

Jiaxun Yang, Yifei Han, Long Zhang, Yujie Liu, Bin Li, Bo Gao, Yangfan He, Kejia Zhan

## Контекст Чувствительность к языку является ключевым аспектом социального образования и цифрового развития. Имеющиеся исследования показали, что некоторый лексический токсичный язык может негативно сказаться на участниках интернет-сообществ, особенно в контексте видео-платформ. Одним из таких сложных явлений является Chinese Patronizing and Condescending Language (CPCL), этот тип реплик, непосредственно или косвенно, способствует профилированию групп по расу, полам и возрасту. Однако существующие данные имеют ограничения во включении комментариев, которые являются непосредственной реакцией пользователей на видео-контент. Это влияет на модели, уменьшая их эффективность. ## Метод Чтобы решить эти проблемы, новая методология CPCLDetector ввела значительные улучшения в области обработки текстовых данных. Модель использует знания из обучающих данных для повышения точности определения CPCL. Модель CPCLDetector разделяет уровни комментариев по глубине, чтобы более точно определить токсичность. Таким образом, модель находит токсичные элементы в контексте видео-контента, что позволяет лучше понять его. Более того, в реализации данной модели используется модель крупномасштабного языкового моделирования, что обеспечивает закрепление знаний и работу с контекстом. ## Результаты Проведены эксперименты с двумя датасетотами: PCLMM и PCLMMPLUS. Использовались 103 тысяч комментариев, которые были получены с помощью модели CPCL-D. Результаты показали, что CPCLDetector превышает State-of-the-Art (SOTA) по метрикам F1-score и Recall-score. Более того, в условиях PCLMMPLUS модель показала себя еще лучше, демонстрируя способность лучше распознавать CPCL в контексте более крупных датасетов. ## Значимость Система CPCLDetector может применяться в сервисах цифрового контента для мониторинга токсичности. Она позволяет не только определять CPCL, но и работать над исключением негативного языка в общественной сфере. Значительное улучшение эффективности модели в детектировании CPCL может способствовать более полному пониманию и контролю токсичности в цифровой среде. ## Выводы Модель CPCLDetector демонстрирует улучшенную точность в детектировании CPCL, продемонстрировав способность работать в больших датасетах. Это определяет ее важность для мониторинга языка в онлайн-сообществах. Дальнейшими направлениями исследований является расширение модели, чтобы она могла работать с более сложными типами токсичного языка и модерировать контент в разных языковых регионах.

Annotation:

Chinese Patronizing and Condescending Language (CPCL) is an implicitly discriminatory toxic speech targeting vulnerable groups on Chinese video platforms. The existing dataset lacks user comments, which are a direct reflection of video content. This undermines the model's understanding of video content and results in the failure to detect some CPLC videos. To make up for this loss, this research reconstructs a new dataset PCLMMPLUS that includes 103k comment entries and expands the dataset size....

ID: 2509.18562v2 cs.MM, cs.AI

arXiv PDF

📄 REMOTE: A Unified Multimodal Relation Extraction Framework with Multilevel Optimal Transport and Mixture-of-Experts

2025-09-09

Авторы:

Xinkui Lin, Yongxiu Xu, Minghao Tang, Shilong Zhang, Hongbo Xu, Hao Xu, Yubin Wang

## Контекст Много modal relation extraction (MRE) является важной задачей в областях Knowledge Graph и Multimedia, играя ключевую роль в построении multimodal knowledge graph. Однако существующие методы по сути ограничены в выделении одного типа реляционных тройняшек, что ограничивает их возможности выделять тройки за пределами указанных типов. Их комбинирование прямым образом не позволяет ловко охватить динамические кросс-modalные взаимодействия и приводит к значительному росту вычислительных затрат. Мы предлагаем REMOTE — универсальный много modal relation extraction фреймворк с многоуровневым транспортным оптимизатором и микстой экспертов, проектированный для совместного выделения внутри modal и меж modalных реляций между текстовыми сущностями и визуальными объектами. Наша модель позволяет эффективно адаптировать выбор интересующих функций взаимодействия к различным типам реляционных тройняшек. ## Метод Мы вводим многоуровневый транспортный модуль для объединения, который сохраняет низкоуровневые признаки в процессе многослойного кодирования. Это позволяет повысить выразительность представлений. Для выделения реляционных тройняшек мы применяем механизм микстов экспертов, который динамически выбирает наиболее релевантные взаимодействия для каждого типа реляций. Это гарантирует оптимальную использование информации из разных модальностей. Таким образом, REMOTE универсально и эффективно, охватывая широкий спектр взаимодействий между текстовыми и визуальными субъектами. ## Результаты Мы проводим эксперименты на созданном нами датасете Unified Multimodal Relation Extraction (UMRE), включающем разнообразные сценарии, где субъекты могут быть текстовыми или изображениями. Модель REMOTE показывает сверхувышнее качество результатов почти на всех метриках по сравнению с другими моделями на двух открытых датасетах MRE. Наши исследования подтверждают, что REMOTE эффективно выделяет разнообразные типы реляционных тройняшек и достигает состояния лидерства в своей области. ## Значимость Наша модель REMOTE может использоваться в различных приложениях, таких как распознавание значков, обработка текста и видео, а также в биоинформатике. Она превосходит существующие методы по объему выделенных реляций и точности, что делает ее привлекательной для разных задач. Мы также открыли доступ к нашим ресурсам, чтобы поддержать будущие исследования. ## Выводы Мы предложили REMOTE — мощный фреймворк для много modal relation extraction, который эффективно работает с разнообразными типами реляционных тройняшек. Наши результаты показали лидирующую позицию REMOTE по сравнению с другими моделями. Мы планируем продолжать развивать REMOTE, о

Annotation:

Multimodal relation extraction (MRE) is a crucial task in the fields of Knowledge Graph and Multimedia, playing a pivotal role in multimodal knowledge graph construction. However, existing methods are typically limited to extracting a single type of relational triplet, which restricts their ability to extract triplets beyond the specified types. Directly combining these methods fails to capture dynamic cross-modal interactions and introduces significant computational redundancy. Therefore, we pr...

ID: 2509.04844v1 cs.MM, cs.AI, cs.IR

arXiv PDF

📄 LLM-Guided Semantic Relational Reasoning for Multimodal Intent Recognition

2025-09-05

Авторы:

Qianrui Zhou, Hua Xu, Yifan Wang, Xinzhi Dong, Hanlei Zhang

## Контекст Осознание человеческих интентов из мультимодальных сигналов является ключевым для анализа поведения и улучшения взаимодействия человека с машиной в реальных условиях. Однако существующие методы страдают от ограничений в модальности-уровне, что приводит к ограниченной реляционной рассуждаемости над тонкой семантикой для понимания сложных интентов. Недостаток неявного понимания интентов через логические связи между модальными сигналами ограничивает эффективность распознавания интентов в сложных сценариях. Данная работа предлагает новую подходящую LLM-Guided Semantic Relational Reasoning (LGSRR), которая использует знания больших языковых моделей (LLMs) для создания семантических основ, что улучшает производительность мелких моделей в реляционном логическом рассуждении. ## Метод LGSRR включает в себя три компонента: (1) **LLM-Based Semantic Extraction Strategy**, которая использует LLM для извлечения тонкой семантической информации; (2) **Chain-of-Thought (CoT) Reasoning Framework**, который автоматически выявляет, описывает и определяет важность семантических признаков; (3) **Formal Semantic Relation Modeling**, основанный на логических принципах, который моделирует и анализирует взаимодействие трех основных типов семантических отношений. Эта архитектура предлагает гибкий и мощный подход для реляционного рассуждения, который не нуждается в предварительно определенных признаковых моделях. ## Результаты Для оценки LGSRR, авторы проводили эксперименты на двух задачах: многомодальном распознавании интентов и распознавании диалоговых актов. Использовались различные данные, включая multimodal-dialogue datasets и диалоговые акты, чтобы проверить эффективность LGSRR. Результаты показали, что LGSRR превосходит текущие методы в понимании мультимодальных интентов, демонстрируя последовательные повышения производительности в различных сценариях понимания и распознавания. ## Значимость LGSRR может использоваться в различных областях, включая HR (Human Resources), customer service, и другие сферы, где распознавание интентов и реляционное рассуждение ключевые для улучшения взаимодействия с пользователем. Наиболее важными преимуществами являются систематический подход к извлечению тонкой семантики, улучшенная точность распознавания интентов и гибкость в использовании различных мультимодальных данных. Этот подход имеет потенциал для дальнейшего улучшения систем взаимодействия человека с машиной, делая их более точными и эффективными. ## Выводы Результаты доказали, что LGSRR превосходит существующие методы в задачах распознавания мультимодальных интентов. Одним из основных достижений является то, что LGSRR может работать с тонкими семантичес

Annotation:

Understanding human intents from multimodal signals is critical for analyzing human behaviors and enhancing human-machine interactions in real-world scenarios. However, existing methods exhibit limitations in their modality-level reliance, constraining relational reasoning over fine-grained semantics for complex intent understanding. This paper proposes a novel LLM-Guided Semantic Relational Reasoning (LGSRR) method, which harnesses the expansive knowledge of large language models (LLMs) to esta...

ID: 2509.01337v1 cs.MM, cs.AI, cs.CL

arXiv PDF

📄 Simulacra Naturae: Generative Ecosystem driven by Agent-Based Simulations and Brain Organoid Collective Intelligence

2025-09-05

Авторы:

Nefeli Manoudaki, Mert Toka, Iason Paterakis, Diarmid Flatley

## Контекст Simulacra Naturae — это инновационная данно-ориентированная медиа-инсталляция, которая исследовала взаимосвязь между поддержкой, экологическими системами и искусственным интеллектом. Она подает новый взгляд на системы, в которых традиционно определялся человеческий вклад. Исследование основывается на использовании биологических вычислений, материальных экологий и генерируемых систем. Основная проблема, которую адресует работа, заключается в том, что традиционные средства визуализации часто ограничиваются человеческим познанием и не учитывают динамику, присущую нечеловеческим субъектам. Эта ограниченность может привести к упущению важности экосистемных отношений, ценности живых организмов и экологических взаимодействий. ## Метод Simulacra Naturae работает через искусственные нейронные сети, которые преобразуют биологические сигналы биологических органов в цифровые формы. Эти сигналы используются для управления генерируемым экосистемным системным поведением, включая визуальные эффекты, аудиокомпозиции и обстановку в пространстве. Метод заключается в том, чтобы создать интерактивную среду, где нейрооргановые сигналы не только влияют на живые растения и артефакты, но также могут сами изменяться под влиянием них. Это достигается с помощью современных технологий, таких как ЖК-дисплеи, а также звуковых и визуальных эффектов, которые взаимодействуют динамически. ## Результаты В результате исследования была создана интерактивная среда, где живые растения, генерируемые визуальные эффекты и звуковые составляющие создавались в реальном времени. Эти элементы были основаны на биологических сигналах, поступающих от нейроорганов. Эксперименты показали, что система воспринимает нейрооргановые сигналы как сигналы управления, но в то же время, эти сигналы могут повлиять на собственную структуру и поведение системы. Например, визуализации могли менять свою форму в зависимости от уровня активности нейроорганов. Результаты показали, что система может значительно улучшить понимание технических систем, если они включают учет биологических факторов. ## Значимость Simulacra Naturae может применяться в различных областях, таких как экологическое искусство, дизайн интерактивных сред, интеллектуальные системы. Она предлагает новый подход к взаимодействию с живыми организмами и технологиями, включая моделирование сложных экосистемных процессов. Ее потенциал заключается в том, что она может способствовать развитию этических отношений к природе и системам

Annotation:

Simulacra Naturae is a data-driven media installation that explores collective care through the entanglement of biological computation, material ecologies, and generative systems. The work translates pre-recorded neural activity from brain organoids, lab-grown three-dimensional clusters of neurons, into a multi-sensory environment composed of generative visuals, spatial audio, living plants, and fabricated clay artifacts. These biosignals, streamed through a real-time system, modulate emergent a...

ID: 2509.02924v1 cs.MM, cs.AI, cs.HC

arXiv PDF

Показано 11 - 20 из 28 записей