📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation

2025-12-05

Авторы:

Xiaosen Lyu, Jiayu Xiong, Yuren Chen, Wanlong Wang, Xiaoqing Dai, Jing Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multimodal Emotion Recognition in Conversation (MERC) aims to predict speakers' emotions by integrating textual, acoustic, and visual cues. Existing approaches either struggle to capture complex cross-modal interactions or experience gradient conflicts and unstable training when using deeper architectures. To address these issues, we propose Cross-Space Synergy (CSS), which couples a representation component with an optimization component. Synergistic Polynomial Fusion (SPF) serves the represent...

ID: 2512.03521v1 cs.MM, cs.LG

arXiv PDF

📄 MCAD: Multimodal Context-Aware Audio Description Generation For Soccer

2025-11-15

Авторы:

Lipisha Chaudhary, Trisha Mittal, Subhadra Gopalakrishnan, Ifeoma Nwogu, Jaclyn Pytlarz

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Audio Descriptions (AD) are essential for making visual content accessible to individuals with visual impairments. Recent works have shown a promising step towards automating AD, but they have been limited to describing high-quality movie content using human-annotated ground truth AD in the process. In this work, we present an end-to-end pipeline, MCAD, that extends AD generation beyond movies to the domain of sports, with a focus on soccer games, without relying on ground truth AD. To address t...

ID: 2511.09448v1 cs.MM, cs.LG

arXiv PDF

📄 Beyond Interpretability: Exploring the Comprehensibility of Adaptive Video Streaming through Large Language Models

2025-08-26

Авторы:

Lianchen Jia, Chaoyang Li, Ziqi Yuan, Jiahui Chen, Tianchi Huang, Jiangchuan Liu, Lifeng Sun

## Контекст Для пользователей видеосервисов, таких как YouTube, Netflix и Amazon Prime, пакетная стратегия предоставления видео потоков стала доминирующим методом доставки видео. Однако вопросы, связанные с управлением битрейтом, остаются актуальными. Решать эти проблемы стали попытаться глубокие нейронные сети, которые позволяют адаптировать качество видео к изменяющимся условиям сети. Несмотря на эффективность, существуют проблемы с пониманием и управлением этих моделей. Частью проблемы является то, что нейронные сети часто являются "черными ящиками", что делает их сложно разбираться и оптимизировать. Например, существующие подходы, такие как преобразование моделей в деревья решений, повышают интерпретируемость, но не обязательно улучшают её понимание разработчиками. Чтобы улучшить это, мы предлагаем \texttt{ComTree}, фреймворк для построения моделей, который учитывает не только интерпретируемость, но и субъективное понимание. ## Метод Мы предлагаем \texttt{ComTree}, первый фреймворк, который строит модели адаптивного видеопотока с учетом их понятности для разработчиков. Метод работает следующим образом: сначала он генерирует все деревья решений, которые удовлетворяют требованиям в точности. Затем он использует горячие промежуточные модели (LLM), такие как GPT, для оценки понятности каждого дерева для разработчиков. Это делается с помощью целевых элементов, таких как читаемость, структура, доступность и понятность. Наконец, фреймворк выбирает дерево, которое оптимально подходит для работы с разработчиками, обеспечивая лучшее понимание. ## Результаты Мы провели эксперименты с \texttt{ComTree} на различных наборах данных, включая реальные запросы пользователей, и сравнили результаты с существующими подходами. Наши результаты показывают, что новый подход повышает понятность без существенного снижения производительности. Например, мы сравнили \texttt{ComTree} с моделями, созданными с помощью преобразования в деревья решений, что показало значительное улучшение в читаемости и удобоваримости моделей. Эти результаты подтверждают то, что \texttt{ComTree} может повысить понятность моделей, что может привести к улучшению взаимодействия разработчиков с ними. ## Значимость Мы убедились, что \texttt{ComTree} может быть применен в различных сценариях, включая проектирование и оптимизацию моделей адаптивного видеопотока. Одним из основных преимуществ является улучшение понимания моделей разработчиками, что позволяет им более эффективно контролировать и улучшать модели. Мы также увидели, что \texttt{ComTree} может привести к повышению эффективности и удоб

Annotation:

Over the past decade, adaptive video streaming technology has witnessed significant advancements, particularly driven by the rapid evolution of deep learning techniques. However, the black-box nature of deep learning algorithms presents challenges for developers in understanding decision-making processes and optimizing for specific application scenarios. Although existing research has enhanced algorithm interpretability through decision tree conversion, interpretability does not directly equate ...

ID: 2508.16448v1 cs.MM, cs.LG, eess.IV

arXiv PDF